統(tǒng)計(jì)學(xué)習(xí)方法

時(shí)間：2022-10-01 05:10:42 學(xué)習(xí)方法

　　統(tǒng)計(jì)學(xué)習(xí)三要素

統(tǒng)計(jì)學(xué)習(xí)方法

　　模型

　　模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。或模型的假設(shè)空間包括所有可能的條件概率分布或決策函數(shù)。或。其中的取值空間稱為參數(shù)空間。

　　策略

　　策略也即學(xué)習(xí)的準(zhǔn)則。一般來(lái)說(shuō)監(jiān)督學(xué)習(xí)的策略即指經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最優(yōu)化。

　　經(jīng)驗(yàn)風(fēng)險(xiǎn)

　　損失函數(shù)

　　0-1損失函數(shù)

　　平方損失函數(shù)

　　絕對(duì)損失函數(shù)

　　對(duì)數(shù)損失函數(shù)

　　風(fēng)險(xiǎn)函數(shù)

　　風(fēng)險(xiǎn)函數(shù)(risk function)又叫期望損失(expected loss)，是理論模型關(guān)于聯(lián)合分布的平均意義下的損失。

　　經(jīng)驗(yàn)風(fēng)險(xiǎn)

　　風(fēng)險(xiǎn)函數(shù)和聯(lián)合分布，用作為模型的后者求作為策略的前者，顯然是病態(tài)的。故取訓(xùn)練數(shù)據(jù)集上的平均損失稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)。

　　當(dāng)訓(xùn)練樣本數(shù)量趨于無(wú)窮時(shí)，趨于。

　　結(jié)構(gòu)風(fēng)險(xiǎn)

　　結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk)在經(jīng)驗(yàn)風(fēng)險(xiǎn)的基礎(chǔ)上添加正則化項(xiàng)(regularization，也叫罰項(xiàng)(penalty term))。

　　-------------

　　經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

　　在找到一個(gè)使得最小。

　　p.s. 當(dāng)模型是條件概率分布，損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。

　　結(jié)構(gòu)風(fēng)險(xiǎn)最小化

　　為防止經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化有可能帶來(lái)的過(guò)擬合，添加代表模型復(fù)雜度的罰項(xiàng)。

　　算法

　　最優(yōu)化算法

　　模型評(píng)估與模型選擇

　　誤差

　　訓(xùn)練誤差

　　訓(xùn)練誤差(training error)是學(xué)習(xí)到的模型關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失。

　　測(cè)試誤差

　　測(cè)試誤差(test error)是學(xué)習(xí)到的模型關(guān)于測(cè)試數(shù)據(jù)集的平均損失。

　　當(dāng)損失函數(shù)是0-1損失時(shí)，測(cè)試誤差即為測(cè)試數(shù)據(jù)集上的誤差率。

　　正則化

　　正則化方法就是在經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)上添加正則化項(xiàng)。正則化項(xiàng)(regularizer)一般是模型復(fù)雜度的單調(diào)遞增函數(shù)。如可以是模型參數(shù)向量的范數(shù)。

　　* 奧卡姆剃刀(Occam's razor)原理：在所有可能選擇的模型中，能夠很好解釋已知數(shù)據(jù)并且十分簡(jiǎn)單才是最好的模型。

　　交叉驗(yàn)證

　　將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集(validation set)和測(cè)試集，分別用于模型的訓(xùn)練、選擇和評(píng)估。

　　1. 簡(jiǎn)單交叉驗(yàn)證

　　分兩部分：訓(xùn)練集和測(cè)試集

　　2. 折交叉驗(yàn)證

　　等分部分：份做訓(xùn)練集，1份做測(cè)試集。重復(fù)進(jìn)行。

　　3. 留一交叉驗(yàn)證

　　折交叉驗(yàn)證的特例。

　　泛化能力

　　泛化誤差

　　泛化誤差(generalization error)學(xué)到的模型對(duì)未知數(shù)據(jù)預(yù)測(cè)的誤差。

　　泛化誤差就是學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)。

　　泛化誤差上界

　　樣本容量增加，泛化誤差上界趨近于0

　　假設(shè)空間容量增加，泛化誤差上界增大

　　監(jiān)督學(xué)習(xí)分類(lèi)

　　按學(xué)習(xí)方法分類(lèi)

　　生成方法->生成模型

　　由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布后，求出概率分布。

　　包括：樸素貝葉斯法、隱馬爾科夫模型

　　判別方法->判別模型

　　由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)或者條件概率分布。

　　包括：k近鄰法、感知機(jī)、邏輯斯蒂回歸模型、最大熵模型、支持向量機(jī)、提升方法、條件隨機(jī)場(chǎng)。

　　區(qū)別：

　　生成方法：

　　可還原出學(xué)習(xí)收斂速度快，當(dāng)N增大時(shí)，更快收斂于真實(shí)模型

　　當(dāng)存在隱變量時(shí)，仍可以使用

　　判別方法

　　直接學(xué)習(xí)或，往往學(xué)習(xí)的準(zhǔn)確率更高

　　可對(duì)數(shù)據(jù)進(jìn)行抽象、特征定義以簡(jiǎn)化學(xué)習(xí)問(wèn)題

　　按

　　分類(lèi)問(wèn)題

　　評(píng)價(jià)指標(biāo)

　　精確率(precision)

　　召回率(recall)

　　標(biāo)注問(wèn)題

　　回歸問(wèn)題

【統(tǒng)計(jì)學(xué)習(xí)方法】相關(guān)文章：

初中數(shù)學(xué)統(tǒng)計(jì)學(xué)習(xí)方法10-06

探討統(tǒng)計(jì)學(xué)的學(xué)習(xí)方法10-08

學(xué)習(xí)方法10-26

經(jīng)典的學(xué)習(xí)方法10-26

高一學(xué)習(xí)方法指導(dǎo)與學(xué)習(xí)方法12-07

統(tǒng)計(jì)局統(tǒng)計(jì)述職報(bào)告06-25

統(tǒng)計(jì)局統(tǒng)計(jì)述職報(bào)告10-26

《統(tǒng)計(jì)》教案10-08

學(xué)習(xí)方法作文02-06

學(xué)習(xí)方法的作文06-01

免费 无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片

統(tǒng)計(jì)學(xué)習(xí)方法

免费无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片