機(jī)器學(xué)習(xí)模型的評(píng)估與選擇

作者:hooly

微信公眾號(hào):一口袋星光

機(jī)器學(xué)習(xí)

目錄:

1.說明;

2.概念;

3.bias-variance trade-off;

4.評(píng)估方法

5.性能度量

說明:本文大部分內(nèi)容來自于《機(jī)器學(xué)習(xí)》讀書的筆記,對(duì)機(jī)器學(xué)習(xí)感興趣的同學(xué),非常推薦閱讀周志華的這本書:

機(jī)器學(xué)習(xí)


1.概念

錯(cuò)誤率&精度:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例是“錯(cuò)誤率”,如果m個(gè)樣本中有α個(gè)分類錯(cuò)誤,則錯(cuò)誤率E = α/m,相應(yīng)的精度為1-E = 1-α/m

“訓(xùn)練誤差”&泛化誤差:對(duì)于模型來說,在訓(xùn)練集上的誤差叫做“訓(xùn)練誤差”,“訓(xùn)練誤差”是被允許的,因?yàn)槲覀冋嬲P(guān)心的是在訓(xùn)練集上學(xué)到的模型在新樣本數(shù)據(jù)上的表現(xiàn)。在新樣本上的誤差是“泛化誤差”。

“過擬合”&“欠擬合”:如果模型對(duì)于訓(xùn)練集的數(shù)據(jù)學(xué)習(xí)的太好,那么可能造成“過擬合”;如果“訓(xùn)練誤差”都很大,那么可能是“欠擬合。


過擬合欠擬合

2.bias-variance trade-off:

bias-variance trade-off
Under-fitting&Over-fitting
過擬合&欠擬合

bias :誤差

variance:方差

noise:噪聲

bias:估計(jì)的均值模型與實(shí)際模型之間的距離

variance:不同模型與估計(jì)的均值模型之間的平均距離

在實(shí)際訓(xùn)練過程中,我們往往不會(huì)只使用一個(gè)樣本訓(xùn)練一次,我們會(huì)使用多個(gè)樣本,訓(xùn)練出多個(gè)不同的模型。

不同的訓(xùn)練集訓(xùn)練出不同的模型。這就要求:

第一,在不同訓(xùn)練集下訓(xùn)練出的模型,我們希望這些模型的均值越接近實(shí)際模型越好,即bias越小越好;

第二,這組模型,本身的方差不要太大。也就是不同訓(xùn)練集訓(xùn)練的模型之間,不要差別太大,即variance越小越好。

3.評(píng)估方法

3.1.對(duì)數(shù)據(jù)集進(jìn)行劃分,分為訓(xùn)練集和測(cè)試集兩部分;數(shù)據(jù)集D、訓(xùn)練集S、測(cè)試集T

3.2.在測(cè)試集上,訓(xùn)練模型,得到“測(cè)試誤差”,作為“泛化誤差”的近似

3.3.調(diào)參和最終確定模型

3.1數(shù)據(jù)集的劃分方法:

通常有以下三種:

留出法 ?

交叉驗(yàn)證法

自助法

3.1.1留出法:

留出法是直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)作為測(cè)試集T,我們需要注意的是在劃分的時(shí)候要盡可能保證數(shù)據(jù)分布的一致性,即避免因數(shù)據(jù)劃分過程引入額外的偏差而對(duì)最終結(jié)果產(chǎn)生影響。

為了保證數(shù)據(jù)分布的一致性,通常我們采用分層采樣的方式來對(duì)數(shù)據(jù)進(jìn)行采樣。

但是樣本的不同劃分方式會(huì)導(dǎo)致模型評(píng)估的相應(yīng)結(jié)果也會(huì)有差別,通常我們都會(huì)進(jìn)行多次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。

留出法的缺點(diǎn):對(duì)于留出法,如果我們的對(duì)數(shù)據(jù)集D劃分后,訓(xùn)練集S中的樣本很多,接近于D,其訓(xùn)練出來的模型與D本身訓(xùn)練出來的模型可能很接近,但是由于T比較小,這時(shí)候可能會(huì)導(dǎo)致評(píng)估結(jié)果不夠準(zhǔn)確穩(wěn)定;如果S樣本很少,又會(huì)使得訓(xùn)練出來的樣本與D所訓(xùn)練出來的樣本相差很大。通常,會(huì)將D中大約2/3?4/5的樣本作為訓(xùn)練集,其余的作為測(cè)試集。

3.1.2.交叉驗(yàn)證法:

交叉驗(yàn)證

k折交叉驗(yàn)證通常把數(shù)據(jù)集D分為k份,其中的k-1份作為訓(xùn)練集,剩余的那一份作為測(cè)試集,這樣就可以獲得k組訓(xùn)練/測(cè)試集,可以進(jìn)行k次訓(xùn)練與測(cè)試,最終返回的是k個(gè)測(cè)試結(jié)果的均值。、

這里數(shù)據(jù)集的劃分依然是依據(jù)分層采樣的方式來進(jìn)行。對(duì)于交叉驗(yàn)證法,其k值的選取往往決定了評(píng)估結(jié)果的穩(wěn)定性和保真性。常見的K的取值有:5、10、20。與留出法類似,通常我們會(huì)進(jìn)行多次劃分得到多個(gè)k折交叉驗(yàn)證,最終的評(píng)估結(jié)果是這多次交叉驗(yàn)證的平均值。比如“10次10折交叉驗(yàn)證法”。(10次10折交叉驗(yàn)證和100次留出法,都是進(jìn)行了100次實(shí)驗(yàn))

假設(shè)數(shù)據(jù)集D里面包含m個(gè)樣本,當(dāng)k=m的時(shí)候,我們稱之為留一法,我們可以發(fā)現(xiàn)留一法并不需要多次劃分,因?yàn)槠鋭澐址绞街挥幸环N,因?yàn)榱粢环ㄖ械腟與D很接近,因此S所訓(xùn)練出來的模型應(yīng)該與D所訓(xùn)練出來的模型很接近,因此通常留一法得到的結(jié)果是比較準(zhǔn)確的。但是當(dāng)數(shù)據(jù)集很大的時(shí)候,訓(xùn)練m個(gè)模型的計(jì)算開銷可能是無法忍受的。

3.1.3.自助法:

留出法與交叉驗(yàn)證法都是使用分層采樣的方式進(jìn)行數(shù)據(jù)采樣與劃分,而自助法則是使用有放回重復(fù)采樣的方式進(jìn)行數(shù)據(jù)采樣,即我們每次從數(shù)據(jù)集D中取一個(gè)樣本作為訓(xùn)練集中的元素,然后把該樣本放回,重復(fù)該行為m次,這樣我們就可以得到大小為m的訓(xùn)練集D',在這里面有的樣本重復(fù)出現(xiàn),有的樣本則沒有出現(xiàn)過,我們把那些沒有出現(xiàn)過的樣本D-D'作為測(cè)試集。

這種方法對(duì)于那些數(shù)據(jù)集小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有用,但是由于該方法改變了數(shù)據(jù)的初始分布導(dǎo)致會(huì)引入估計(jì)偏差。

總結(jié)

對(duì)于數(shù)據(jù)量充足的時(shí)候,通常采用留出法或者k折交叉驗(yàn)證法來進(jìn)行訓(xùn)練/測(cè)試集的劃分;

對(duì)于數(shù)據(jù)集小且難以有效劃分訓(xùn)練/測(cè)試集時(shí)使用自助法

對(duì)于數(shù)據(jù)集小且可有效劃分的時(shí)候最好使用留一法來進(jìn)行劃分,因?yàn)檫@種方法最為準(zhǔn)確

3.2訓(xùn)練模型

模型的訓(xùn)練過程本文不做論述

3.3調(diào)參和最終確定模型

在機(jī)器學(xué)習(xí)過程中,除了要進(jìn)行模型的選擇,也需要進(jìn)行參數(shù)的設(shè)定,這就是通常所說的“參數(shù)調(diào)節(jié)”簡稱“調(diào)參”。

注意:學(xué)習(xí)算法的很多參數(shù)是在實(shí)數(shù)范圍內(nèi)取值的,對(duì)于每種參數(shù)的配置都訓(xùn)練一個(gè)模型出來是不可能的,常用的做法是對(duì)每個(gè)參數(shù)設(shè)置一個(gè)變化范圍和步長,比如在[0,2]之間,以0.05為步長,實(shí)際要評(píng)估的值是5個(gè),最終也會(huì)從這5個(gè)候選值中產(chǎn)生選定值。這個(gè)值可能并不是最佳值,但是這是在性能和開銷之間進(jìn)行這種的結(jié)果,通過折中,學(xué)習(xí)這個(gè)過程才變得可行。假設(shè)有3個(gè)參數(shù),每個(gè)參數(shù)有5個(gè)候選值,那么一共就是5*5*5=125個(gè)模型需要考察,所以即使是折中后,調(diào)參仍然是很困難的。

需要注意的是,我們會(huì)把訓(xùn)練集另外劃分成訓(xùn)練集和驗(yàn)證集(validation set),基于驗(yàn)證集上的性能來進(jìn)行模型選擇和調(diào)優(yōu),用測(cè)試集上的判別效果來估計(jì)模型在實(shí)際使用時(shí)的泛化能力。

4.性能度量

對(duì)于模型的性能度量,我們通常用以下幾種方法來進(jìn)行度量:

1. 錯(cuò)誤率/精度(accuracy)

2. 準(zhǔn)確率(查準(zhǔn)率,precision)/召回率(查全率,recall)

3. P-R曲線,F(xiàn)1度量

4. ROC曲線/AUC(最常用)

5. 代價(jià)曲線

接下來,我們將會(huì)更加詳細(xì)的來介紹這些概念以及那些度量方法是最常用的。

3.4.1錯(cuò)誤率/精度(accuracy)

假設(shè)我們擁有m個(gè)樣本個(gè)體,分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例是“錯(cuò)誤率”,如果m個(gè)樣本中有α個(gè)分類錯(cuò)誤,則錯(cuò)誤率E = α/m,相應(yīng)的精度為1-E = 1-α

3.4.2準(zhǔn)確率(查準(zhǔn)率)/召回率(查全率)

準(zhǔn)確率=預(yù)測(cè)為真且實(shí)際也為真的個(gè)體個(gè)數(shù)預(yù)測(cè)為真的個(gè)體個(gè)數(shù)

召回率=預(yù)測(cè)為真且實(shí)際也為真的個(gè)體個(gè)數(shù)實(shí)際為真的個(gè)體個(gè)數(shù)

我們將準(zhǔn)確率記為P,召回率記為R,通過下面的混淆矩陣我們有

混淆矩陣

其中,TP(true positive),F(xiàn)P(false positive),F(xiàn)N(false negative),TN(true negative)

P=TPTP+FP

R=TPTP+FN

通過上面對(duì)準(zhǔn)確率和召回率的描述我們可以發(fā)現(xiàn),準(zhǔn)確率更c(diǎn)are的是在已經(jīng)預(yù)測(cè)為真的結(jié)果中,預(yù)測(cè)正確的比例,這時(shí)候我們可以發(fā)現(xiàn)如果我們預(yù)測(cè)為真的個(gè)體數(shù)越少,準(zhǔn)確率越高的可能性就會(huì)越大,即如果我們只預(yù)測(cè)最可能為真的那一個(gè)個(gè)體為真,其余的都為假,那么這時(shí)候我們的準(zhǔn)確率很可能為100%,但此時(shí)召回率就會(huì)很低;而召回率care的是在所有為真的個(gè)體中,被預(yù)測(cè)正確的個(gè)體所占的比例,那么可以看到如果我們預(yù)測(cè)為真的個(gè)體越多,那么召回率更高的可能性就會(huì)越大,即如果我們把所有的個(gè)體都預(yù)測(cè)為真,那么此時(shí)的召回率必然為100%,但是準(zhǔn)確率此時(shí)就會(huì)很低。因此這兩個(gè)度量往往是相互對(duì)立的,即準(zhǔn)確率高則召回率通常比較低,召回率高則準(zhǔn)確率往往會(huì)很低。因此我們分別用準(zhǔn)確率或召回率對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)會(huì)有片面性,故接下來介紹P-R曲線來對(duì)模型進(jìn)行更準(zhǔn)確的評(píng)價(jià)。

3.4.3?P-R曲線/F1度量

P-R曲線是以召回率R為橫軸,準(zhǔn)確率P為縱軸,然后根據(jù)模型的預(yù)測(cè)結(jié)果對(duì)樣本進(jìn)行排序,把最有可能是正樣本的個(gè)體排在前面,而后面的則是模型認(rèn)為最不可能為正例的樣本,再按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)并計(jì)算出當(dāng)前的準(zhǔn)確率和召回率得到的曲線。

通過上圖我們可以看到,當(dāng)我們只把最可能為正例的個(gè)體預(yù)測(cè)為正樣本時(shí),其準(zhǔn)確率最高位1.0,而此時(shí)的召回率則幾乎為0,而我們?nèi)绻阉械膫€(gè)體都預(yù)測(cè)為正樣本的時(shí)候,召回率為1.0,此時(shí)準(zhǔn)確率則最低。但是我們?nèi)绾瓮ㄟ^PR曲線來判斷哪個(gè)模型更好呢?這里有以下集中判斷方式:

基于曲線是否覆蓋來進(jìn)行判斷。即如果模型B的PR曲線此時(shí)完全包住了模型C的PR曲線,此時(shí)我們認(rèn)為模型B對(duì)于該問題更優(yōu)于模型C,這也可以理解,因?yàn)樵谙嗤倩芈实那闆r下,模型B的準(zhǔn)確率要比模型C的更高,因此B必然更優(yōu)一些。但是這種方法在曲線有交叉的時(shí)候不好判斷;

基于平衡點(diǎn)來進(jìn)行判斷。平衡點(diǎn)即為召回率與準(zhǔn)確率相等的點(diǎn),如果該點(diǎn)的值越大,則認(rèn)為模型越優(yōu),但這樣的判斷過于簡單;

利用F1度量來進(jìn)行判斷。F1=2?P?RP+R,F(xiàn)1的值越大越好,可以發(fā)現(xiàn),F(xiàn)1是一個(gè)準(zhǔn)確率和召回率的調(diào)和平均數(shù),其更c(diǎn)are較小值,因此如果P與R中一個(gè)值太小會(huì)對(duì)F1產(chǎn)生更大的影響,但是這樣的判斷都是以準(zhǔn)確率和召回率同等重要為基礎(chǔ)的,但是對(duì)于很多問題,其會(huì)更c(diǎn)are其中的一個(gè)指標(biāo),例如癌癥的判斷,其更關(guān)注的是召回率而不是準(zhǔn)確率,因?yàn)槿绻覀兏P(guān)注準(zhǔn)確率,就會(huì)使得很多的癌癥患者被誤診為不是癌癥,從而造成患者的死亡率會(huì)更高;

利用Fβ來判斷。Fβ=(1+β2)?P?Rβ2?P+R,當(dāng)β=1的時(shí)候,即為F1度量,當(dāng)β>1的時(shí)候,召回率有更大的影響,反之準(zhǔn)確率有更大的影響,這個(gè)很好理解,我們把Fβ轉(zhuǎn)換一下又Fβ=11+β2(β2R+1P),通過該公式我們可以看到當(dāng)β>1的時(shí)候,R對(duì)于Fβ的影響更大。

但是對(duì)于PR曲線,其對(duì)于樣本類別是否平衡非常的敏感,在這里我們可以做一個(gè)證明:

假設(shè)我們擁有n個(gè)樣本,我們首先對(duì)樣本進(jìn)行排序,把在該模型下最可能預(yù)測(cè)為正例的樣本放在前面,把最不可能為正例的樣本放在后面,然后我們選取閾值c,那么在c之前的樣本我們會(huì)預(yù)測(cè)為正,c之后的樣本我們會(huì)預(yù)測(cè)為負(fù)。p(fp)表示我們對(duì)樣本預(yù)測(cè)為正的概率,那么我們有:

TP=n∫c?∞p(Y=1|fp)p(fp)dfp=n∫c?∞p(Y=1,fp)dfp=n∫c?∞p(fp|Y=1)P(Y=1)dfp=nP(Y=1)∫c?∞p(fp|Y=1)dfp

FP=n∫c?∞p(Y=0|fp)p(fp)dfp=n∫c?∞p(Y=0,fp)dfp=n∫c?∞p(fp|Y=0)P(Y=0)dfp=nP(Y=0)∫c?∞p(fp|Y=0)dfp

TN=n∫∞cp(Y=0|fp)p(fp)dfp=n∫∞cp(Y=0,fp)dfp=n∫∞cp(fp|Y=0)P(Y=0)dfp=nP(Y=0)∫∞cp(fp|Y=0)dfp

FN=N∫∞cp(Y=1|fp)p(fp)dfp=n∫∞cp(Y=1,fp)dfp=n∫∞cp(fp|Y=1)P(Y=1)dfp=nP(Y=1)∫∞cp(fp|Y=1)dfp

那么準(zhǔn)確率

P=TPTP+FP=nP(Y=1)∫c?∞p(fp|Y=1)dfpnP(Y=1)∫c?∞p(fp|Y=1)dfp+nP(Y=0)∫c?∞p(fp|Y=0)dfp

我們可以看到準(zhǔn)確率P與數(shù)據(jù)的先驗(yàn)分布P(Y)有很大的關(guān)系,當(dāng)我們采的樣本不均衡的時(shí)候,P(Y)會(huì)有變化,從而導(dǎo)致準(zhǔn)確率也會(huì)發(fā)生變化,因此PR曲線對(duì)于數(shù)據(jù)采樣的均衡性具有很高的敏感度

3.4.4?ROC曲線/AUC

ROC曲線則是以假正例率FPR為橫軸,真正例率TPR為縱軸。其中

FPR=FPFP+TN

TPR=TPTP+FN

我們可以看到真正例率與召回率是一樣的,那么ROC曲線圖如下圖所示:

該曲線與繪制PR曲線類似,也是首先將樣本按照正例的可能性進(jìn)行排序,然后按順序逐個(gè)把樣本預(yù)測(cè)為正例(其實(shí)相當(dāng)于取不同的閾值),然后計(jì)算FPR值和TPR值,即可獲得該曲線。

對(duì)于該曲線,我們首先有4個(gè)特殊的點(diǎn)要說明一下:

(0,0)點(diǎn):我們把所有的個(gè)體都預(yù)測(cè)為假,那我們可以知道TP與FP都為0,因?yàn)門P表示預(yù)測(cè)為真實(shí)際也為真,而FP表示預(yù)測(cè)為真實(shí)際為假的個(gè)體;

(0,1)點(diǎn):我們所有預(yù)測(cè)為真的個(gè)體都正確,這是我們最理想的情況,此時(shí)TP=TP+FN,而FP=0;

(1,0)點(diǎn):這是預(yù)測(cè)最糟糕的情況,即所有的預(yù)測(cè)都是錯(cuò)誤的,那么此時(shí)TP=0,而FP=FP+TN;

(1,1)點(diǎn):因?yàn)槠涫窃趛=x的這條直線上,因此其相當(dāng)于隨機(jī)預(yù)測(cè),即我預(yù)測(cè)一個(gè)個(gè)體為真還是假都是隨機(jī)的。

因此我們可以發(fā)現(xiàn)如果一個(gè)模型的ROC曲線越靠近與左上角,那么該模型就越優(yōu),其泛化性能就越好,但是對(duì)于兩個(gè)模型,我們?nèi)绾闻袛嗄膫€(gè)模型的泛化性能更優(yōu)呢?這里我們有主要以下兩種方法:

如果模型A的ROC曲線完全包住了模型B 的ROC曲線,那么我們就認(rèn)為模型A要優(yōu)于模型B;

如果兩條曲線有交叉的話,我們就通過比較ROC與X,Y軸所圍得曲線的面積來判斷,面積越大,模型的性能就越優(yōu),這個(gè)面積我們稱之為AUC(area under ROC curve)

由于我們的樣本通常是有限的,因此所繪制出來的曲線并不是光滑的,而是像曲線b那樣,因此我們可以通過以下公式來計(jì)算AUC

AUC=12∑i=1m?1(xi?1?xi)?(yi+yi+1)

根據(jù)FPR以及TPR的定義我們有

TPR=TPTP+FN=nP(Y=1)∫c?∞p(fp|Y=1)dfpnP(Y=1)∫c?∞p(fp|Y=1)dfp+nP(Y=1)∫∞cp(fp|Y=1)dfp=∫c?∞p(fp|Y=1)dfp∫c?∞p(fp|Y=1)dfp+∫∞cp(fp|Y=1)dfp

FPR=FPFP+TN=nP(Y=0)∫c?∞p(fp|Y=0)dfpnP(Y=0)∫c?∞p(fp|Y=0)dfp+nP(Y=0)∫∞cp(fp|Y=0)dfp=∫c?∞p(fp|Y=0)dfp∫c?∞p(fp|Y=0)dfp+∫∞cp(fp|Y=0)dfp

通過上面的公式運(yùn)算,我們發(fā)現(xiàn)ROC曲線對(duì)于樣本類別是否平衡并不敏感,即其并不受樣本先驗(yàn)分布的影響,因此在實(shí)際工作中,更多的是用ROC/AUC來對(duì)模型的性能進(jìn)行評(píng)價(jià)

3.4.5?代價(jià)曲線

在上面所描述的衡量模型性能的方法都是基于誤分類同等代價(jià)來開展的,即我們把True預(yù)測(cè)為False與把False預(yù)測(cè)為True所導(dǎo)致的代價(jià)是同等的,但是在很多情況下其實(shí)并不是這樣的,我們依然以癌癥診斷為例,如果我們把一個(gè)患有癌癥的患者預(yù)測(cè)為不患有與把不患有癌癥的患者預(yù)測(cè)為患有明顯其造成的損失是不同的,因此在這種情況下發(fā)我們是不可能以同等代價(jià)來進(jìn)行預(yù)測(cè)。故這里引入了二分類代價(jià)矩陣

在這里我們給誤分類賦予了一個(gè)代價(jià)指標(biāo)。在非均等代價(jià)下,我們的目標(biāo)就轉(zhuǎn)化為最小化總體代價(jià),那么代價(jià)敏感的錯(cuò)誤率可以通過如下公式進(jìn)行計(jì)算

e=1m(∑xi∈D+I(f(xi)≠yi)?cost01+∑xi∈D?I(f(xi)≠yi)?cost10)

由于在非均等代價(jià)下,ROC曲線并不能反映出模型的期望總體代價(jià),因此引入了代價(jià)曲線,其中橫軸為正例概率代價(jià),縱軸為歸一化代價(jià)。正例概率代價(jià)計(jì)算方式為:

P(+)cost=p?cost01p?cost01+(1?p)?cost10

歸一化代價(jià)計(jì)算方式為:

costnorm=FNR?p?cost01+FPR?(1?p)?cost10p?cost01+(1?p)?cost10

比較檢驗(yàn)

前面介紹了各種性能度量方式,但是其度量的是模型在測(cè)試集下的測(cè)試誤差的性能狀況,雖然其可以近似代替泛化性能,但畢竟與真實(shí)的泛化性能有一定的距離,在這里我們介紹通過假設(shè)檢驗(yàn)的方式,利用測(cè)試誤差來預(yù)估泛化誤差從而得到模型的泛化性能情況,即基于假設(shè)檢驗(yàn)結(jié)果我們可以推斷出若在測(cè)試集上觀察到模型A比B好,那么A的泛化性能在統(tǒng)計(jì)意義上優(yōu)于B的概率有多大

假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)就是數(shù)理統(tǒng)計(jì)中依據(jù)一定的假設(shè)條件,由樣本推斷總體的一種方法。其步驟如下所示:

1. 根據(jù)問題的需要對(duì)所研究的總體做某種假設(shè),記為H0

2. 選取合適的統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量的選取要使得在假設(shè)H0成立時(shí),其分布是已知的(統(tǒng)計(jì)量我們可以視為樣本的函數(shù))

3. 由實(shí)測(cè)的樣本計(jì)算出統(tǒng)計(jì)量的值,根據(jù)預(yù)先給定的顯著性水平進(jìn)行檢驗(yàn),做出拒絕或接受假設(shè)H0的判斷

根據(jù)以上三步我們知道首先我們要對(duì)所研究的總體做出某種假設(shè),在我們所研究的問題中就是對(duì)模型泛化錯(cuò)誤率分布做出某種假設(shè)或猜想。通常,測(cè)試錯(cuò)誤率與泛化誤差率的差別很小,因此我們可以通過測(cè)試誤差率來估計(jì)泛化誤差率。我們知道泛化誤差率為?的模型在m個(gè)樣本中被測(cè)得的測(cè)試錯(cuò)誤率為??的概率為

P(??,?)=(mm???)????m(1??)m????m

我們可以看到該概率的格式滿足二項(xiàng)分布,那么?在取什么值的時(shí)候,概率P最大?讓P對(duì)?求導(dǎo)后我們可以發(fā)現(xiàn)當(dāng)?=??的時(shí)候,概率值是最大的,二項(xiàng)分布示意圖如下所示:

因此,我們可以假設(shè)泛化誤差率?≤?0,那么在1?α的概率內(nèi)所能觀測(cè)到的最大錯(cuò)誤率可以通過下式計(jì)算得到:

?ˉ=max?s.t.∑i=?0?m+1m(mi)?i(1??)(m?i)<α

即我們最多能夠誤分的樣本數(shù)為上圖陰影部分乘上其相應(yīng)的概率,故當(dāng)測(cè)試錯(cuò)誤率??≤?0時(shí),在α的顯著度下是接受的,即能夠以1?α的置信度認(rèn)為模型的泛化錯(cuò)誤率不大于?0

大多數(shù)情況下,我們會(huì)使用多次留出或交叉驗(yàn)證法,因此我們會(huì)得到多組測(cè)試誤差率,此時(shí)我們可以使用t檢驗(yàn)的方式來進(jìn)行泛化誤差的評(píng)估。

即假定我們得到了k個(gè)測(cè)試誤差率,??1,??1,...,??k,則平均測(cè)試錯(cuò)誤率μ和方差σ2為

μ=1k∑i=1k??i

σ2=1k?1∑i=1k(??i?μ)

由于這k個(gè)測(cè)試誤差率可以看做泛化誤差率?0的獨(dú)立采樣,因此變量τt=k√(μ??0)σ服從自由度為k-1的t分布。對(duì)于假設(shè)μ=?0和顯著度α,我們可以計(jì)算出當(dāng)前錯(cuò)誤率均值為?0時(shí),在1?α概率內(nèi)能觀測(cè)到的最大錯(cuò)誤率,即臨界值。這樣我們就可以對(duì)我們的假設(shè)做出拒絕或接受。

作者:hooly

微信公眾號(hào):一口袋星光

我會(huì)在微信公號(hào)上持續(xù)更新我的文章,你來討論我很歡迎。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容