葫蘆書第二章——模型評(píng)估

在計(jì)算機(jī)科學(xué)特別是機(jī)器學(xué)習(xí)領(lǐng)域中,對(duì)模型的評(píng)估至關(guān)重要。只有選擇與問(wèn)題相匹配的評(píng)估方法,才能快速地發(fā)現(xiàn)模型選擇或訓(xùn)練過(guò)程中出現(xiàn)的問(wèn)題,迭代地對(duì)模型進(jìn)行優(yōu)化。

1、評(píng)估指標(biāo)的局限性

在模型評(píng)估過(guò)程中,分類問(wèn)題、排序問(wèn)題、回歸問(wèn)題往往需要使用不同的指標(biāo)進(jìn)行評(píng)估。在諸多的評(píng)估指標(biāo)中,大部分指標(biāo)只能片面地反映模型的一部分性能。 如果不能合理地運(yùn)用評(píng)估指標(biāo) ,不僅不能發(fā)現(xiàn)模型本身的問(wèn)題,而且會(huì)得出錯(cuò)誤的結(jié)論。

1.1、準(zhǔn)確率這一指標(biāo)有何局限性?

  • 我的回答

準(zhǔn)確率又稱為精度,是我們解決分類問(wèn)題時(shí)最常用來(lái)衡量結(jié)果好壞所用的指標(biāo)。其定義如下:

Accuracy=\frac{n_{correct}}{n_{total}}

準(zhǔn)確率的局限性在于不能很好地處理不平衡樣本(Unbalanced Sample)的情況,比如我們的訓(xùn)練樣本中99%都是正例,只有1%是負(fù)例,那么即使我們的分類器將所有樣本類別預(yù)測(cè)為正,也有99%的準(zhǔn)確率,但很顯然,這個(gè)模型并不好,尤其是我們特別關(guān)注的是1%的負(fù)例的時(shí)候(比如安檢時(shí)的恐怖分子篩查、對(duì)一些癥狀不明朗的病人進(jìn)行確診等等)。

  • 參考答案

通過(guò)實(shí)例闡述了我的回答。

1.2、為什么要權(quán)衡精確率與召回率?如何權(quán)衡?

  • 我的回答

1、關(guān)于精確率與召回率,我昨天剛看了一篇博客,講解得很清晰了,博客中舉了登機(jī)前恐怖分子篩查的例子。每年100萬(wàn)的乘客中,有18名恐怖分子,這是典型的樣本不平衡的情況,若采用準(zhǔn)確率進(jìn)行衡量,那么直接判定所有乘客均不是恐怖分子的模型將會(huì)獲得接近1的準(zhǔn)確率,但很明顯這樣的模型是無(wú)用的。

召回率(recall)定義如下:

Recall=\frac{true\ positive}{true\ positive+false\ negative}

在本例中對(duì)應(yīng)的是18名恐怖分子中被篩查出來(lái)的比例。這一指標(biāo)看似完美,但一個(gè)將所有乘客標(biāo)為恐怖分子的模型的召回率為1,但顯然,這樣的模型也是沒有意義的。這時(shí)我們需要另一個(gè)指標(biāo)來(lái)制衡。

精確率(precision)定義如下:

Precision=\frac{true\ positive}{true\ positive+false\ postive}

在本例中對(duì)應(yīng)的是所有被模型標(biāo)為恐怖分子的人中有多少比例真的是恐怖分子。在保證召回率較高的同時(shí)使得精確率也較高就可以避免上述問(wèn)題。

綜上我們希望權(quán)衡精確率與召回率,使得兩者都比較高。兩個(gè)指標(biāo)誰(shuí)更重要視具體問(wèn)題而定。

2、權(quán)衡精確率與召回率的方法有很多,包括P-R曲線、ROC曲線等,也可以使用指標(biāo)F_1

F_1=\frac{2*precision*recall}{precision+recall}

也就是precisionrecall兩者的調(diào)和平均。

之所以使用調(diào)和平均而不是算術(shù)平均,是因?yàn)?strong>調(diào)和平均會(huì)懲罰極端值。比如下面兩種情況:

  • precision為0.5,recall為0.5

  • precision為0,recall為1

若使用算術(shù)平均值兩者一樣好,但實(shí)際上第二種情況是我們應(yīng)該避免的。調(diào)和平均可以幫我們避免這種情況的出現(xiàn)。

  • 參考答案

和我的回答差不多,額外補(bǔ)充了P-R曲線的畫法,這部分放在后面和ROC曲線一起說(shuō)。

1.3、無(wú)論采用哪種回歸模型得到的RMSE指標(biāo)都非常高。然而事實(shí)是模型在95%的時(shí)間內(nèi)預(yù)測(cè)誤差都小于1%,取得了相當(dāng)不錯(cuò)的預(yù)測(cè)結(jié)果。造成RMSE指標(biāo)居高不下的最可能的原因是什么?如何解決呢?

  • 我的回答

1、有少數(shù)噪聲點(diǎn)和離群點(diǎn)使得RMSE指標(biāo)非常高。

2、解決方案就是在清洗數(shù)據(jù)的時(shí)候把這些離群點(diǎn)過(guò)濾出去或者選用對(duì)離群點(diǎn)更穩(wěn)健的指標(biāo)。

  • 參考答案

1、一般情況下, RMSE能夠很好地反映回歸模型預(yù)測(cè)值與真實(shí)值的偏離程度。但在實(shí)際問(wèn)題中,如果存在個(gè)別偏離程度非常大的離群點(diǎn)(Outlier)時(shí),即使離群點(diǎn)數(shù)量非常少也會(huì)讓RMSE指標(biāo)變得很差。

2、解決方案如下:

1)如果我們認(rèn)定這些離群點(diǎn)是“噪聲點(diǎn)”的話,就需要在數(shù)據(jù)預(yù)處理的階段把這些噪聲點(diǎn)過(guò)濾掉 。

2)如果不認(rèn)為這些離群點(diǎn)是“噪聲點(diǎn)”的話,就需要進(jìn)一步提高模型的預(yù)測(cè)能力, 將離群點(diǎn)產(chǎn)生的機(jī)制建模進(jìn)去。

3)可以找一個(gè)更合適的指標(biāo)采評(píng)估該模型。關(guān)于評(píng)估指標(biāo),存在比RMSE的魯棒性更好的指標(biāo),比如平均絕對(duì)百分比誤差(MAPE),其定義為:

MAPE=\sum_{i=1}^{n}\left|\frac{y_{i}-\hat{y}_{i}}{y_{i}}\right| \times \frac{100}{n}

相比RMSE,MAPE相當(dāng)于把每個(gè)點(diǎn)的誤差進(jìn)行了歸一化,降低了個(gè)別離群點(diǎn)帶來(lái)的絕對(duì)誤差的影響。

2、ROC曲線

二值分類器(BinaryClassifier )是機(jī)器學(xué)習(xí)領(lǐng)域中最常見也是應(yīng)用最廣泛的分類器。ROC曲線則經(jīng)常作為評(píng)估二值分類器最重要的指標(biāo)之一。

2.1、什么是ROC曲線?

  • 我的回答

ROC曲線是Receiver Operating Characteristic Curve的簡(jiǎn)稱,中文名為“受試者工作特征由線”。

ROC曲線的橫縱軸分別是什么記不清了……不過(guò)曲線下面積(AUC)越大說(shuō)明模型效果越好。

  • 參考答案

ROC曲線的橫坐標(biāo)為假正率(False Positive Rate, FPR),縱坐標(biāo)為真正率(True Positive Rate, TPR)FPRTPR的計(jì)算方法分別為:

FPR=\frac{FP}{FP+TN}

TPR=\frac{TP}{TP+FN}

更深入的理解來(lái)自這里

結(jié)合西瓜書中關(guān)于ROC曲線的畫法更容易理解上圖ROC的形狀:

2.2、如何繪制ROC曲線?

  • 我的回答

上圖已經(jīng)給出了詳細(xì)的畫法。

  • 參考答案

首先,根據(jù)樣本標(biāo)簽統(tǒng)計(jì)出正負(fù)樣本數(shù)量 ,假設(shè)正樣本數(shù)量為P,負(fù)樣本數(shù)量為N;接下來(lái),把橫軸的刻度間隔設(shè)置為1/N,縱軸的刻度間隔設(shè)置為1/P;再根據(jù)模型輸出的預(yù)測(cè)概率對(duì)樣本進(jìn)行排序(從高到低);依次遍歷樣本,同時(shí)從零點(diǎn)開始繪制ROC曲線,每遇到一個(gè)正樣本就沿縱軸方向繪制一個(gè)刻度間隔的曲線,每遇到一個(gè)負(fù)樣本就沿橫軸方向繪制一個(gè)刻度間隔的曲線,直到遍歷完所有樣本,由線最終停在(1,1)這個(gè)點(diǎn),整個(gè)ROC曲線繪制完成。

2.3、如何計(jì)算AUC?

  • 我的回答

所謂AUC就是曲線下面積(Area Under Curve),以上圖為例,由于實(shí)際的ROC曲線是由折線構(gòu)成的,因此直接計(jì)算各矩形面積累加即可。

  • 參考答案

計(jì)算AUC值只需要沿著ROC橫軸做積分就可以了。由于ROC曲線一般都處于y=x這條直線的上方(如果不是的話,只要把模型預(yù)測(cè)的概率p反轉(zhuǎn)成1-p就可以得到一個(gè)更好的分類器),所以AUC的取值一般在0.5 ~ 1之間。AUC越大 , 說(shuō)明分類器越可能把真正的正樣本排在前面,分類性能越好。

2.4、ROC曲線相比P-R曲線有什么特點(diǎn)?

  • 我的回答

ROC曲線的橫軸是假正率,縱軸是真正率。

P-R曲線的橫軸是精確率,縱軸是召回率(等于真正率)。

也就是說(shuō),兩者的縱軸其實(shí)是相同的指標(biāo),不同的地方在于橫軸。

至于由此導(dǎo)致的不同我就不太清楚了……

  • 參考答案

相比P-R曲線,ROC曲線有一個(gè)特點(diǎn),當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí),ROC曲線的形狀能夠基本保持不變,而P-R曲線的形狀一般會(huì)發(fā)生較劇烈的變化

這個(gè)特點(diǎn)讓 ROC 曲線能夠盡量降低不同測(cè)試集帶來(lái)的干擾,更加客觀地衡量模型本身的性能。

3、余弦距離的應(yīng)用

在機(jī)器學(xué)習(xí)問(wèn)題中,通常將特征表示為向量的形式,所以在分析兩個(gè)特征向量之間的相似性時(shí)常使用余弦相似度來(lái)表示。余弦相似度的取值范圍是[-1,1],相同的兩個(gè)向量之間的相似度為1。如果希望得到類似于距離的表示,1減去余弦相似度即為余弦距離。因此余弦距離的取值范圍為[0,2],相同的兩個(gè)向量余弦距離為0

3.1、為什么在一些場(chǎng)景中要使用余弦距離而不是歐氏距離?

  • 我的回答

因?yàn)闅W氏距離易受量綱和取值范圍影響,而余弦距離可以解決這個(gè)問(wèn)題。

比如我們想尋找電影品味相近的觀眾,假設(shè)現(xiàn)在有兩個(gè)觀眾及其對(duì)電影的評(píng)分,兩人電影評(píng)分的排序完全相同,但觀眾A打分區(qū)間在[0,5]而觀眾B打分區(qū)間在[6,10],這將導(dǎo)致兩個(gè)觀眾的歐氏距離很大,從而得出兩人觀影品味并不相似的結(jié)果。

  • 參考答案

總體來(lái)說(shuō),歐氏距離體現(xiàn)數(shù)值上的絕對(duì)差異,而余弦距離體現(xiàn)方向上的相對(duì)差異

例如,統(tǒng)計(jì)兩部劇的用戶觀看行為,用戶A的觀看向量為(0,1),用戶B(1,0),此時(shí)二者的余弦距離很大, 而歐氏距離很小。我們分析兩個(gè)用戶對(duì)于不同視頻的偏好更關(guān)注相對(duì)差異,顯然應(yīng)當(dāng)使用余弦距離。 而當(dāng)我們分析用戶活躍度,以登陸次數(shù)和平均觀看時(shí)長(zhǎng)作為特征時(shí),余弦距離會(huì)認(rèn)為(1,10),(10,100)兩個(gè)用戶距離很近,但顯然這兩個(gè)用戶活躍度是有著極大差異的,此時(shí)我們更關(guān)注數(shù)值絕對(duì)差異,應(yīng)當(dāng)使用歐氏距離 。

3.2、余弦距離是否是一個(gè)嚴(yán)格定義的距離?

  • 我的回答

一個(gè)嚴(yán)格定義的距離應(yīng)當(dāng)滿足非負(fù)性、對(duì)稱性和三角不等式。

顯然余弦距離滿足非負(fù)性和三角不等式,但其不滿足三角不等式。因此不是一個(gè)嚴(yán)格定義的距離。

  • 參考答案

如上所述,三角不等式性質(zhì)并不成立,因此余弦距離不是一個(gè)嚴(yán)格定義的距離。下面給出一個(gè)反例。設(shè)A=(1,0),B=(1,1),C=(0,1),則:

\begin{array}{c}{\operatorname{dist}(A, B)=1-\frac{\sqrt{2}}{2}} \\ {\operatorname{dist}(B, C)=1-\frac{\sqrt{2}}{2}} \\ {\operatorname{dist}(A, C)=1}\end{array}

因此:

dist(A,B)+dist(B,C)=2-\sqrt{2}<1=dist(A,C)

在機(jī)器學(xué)習(xí)領(lǐng)域被稱為距離,卻不滿足三條距離公理的不僅僅有余弦距離,還有KL距離(Kullback-Leibler Divergence),也叫作相對(duì)熵,常用于計(jì)算兩個(gè)分布之間的差異,它不滿足對(duì)稱性和三角不等式。

4、A/B測(cè)試的陷阱

在互聯(lián)網(wǎng)公司中, A/B測(cè)試是驗(yàn)證新模塊、新功能、新產(chǎn)品是否高效,新算法、新模型的效果是否有提升,新設(shè)計(jì)是否受到用戶歡迎,新更改是否影響用戶體驗(yàn)的主要測(cè)試方法。在機(jī)器學(xué)習(xí)領(lǐng)域中,A/B測(cè)試是驗(yàn)證模型最終效果的主要手段。

這部分內(nèi)容我完全沒有接觸過(guò),所以就不班門弄斧了,直接整理參考答案。

4.1、在對(duì)模型避行過(guò)充分的離線評(píng)估之后,為什么還要進(jìn)行在線A/B測(cè)試?

  • 參考答案

需要進(jìn)行在線A/B測(cè)試的原因如下:

1)離線評(píng)估無(wú)法完全消除模型過(guò)擬合的影響,因此得出的離線評(píng)估結(jié)果無(wú)法完全替代線上評(píng)估結(jié)果。

2)離線評(píng)估無(wú)法完全還原線上的工程環(huán)境。 一般來(lái)講,離線評(píng)估往往不會(huì)考慮線上環(huán)境的延遲 、數(shù)據(jù)丟失、標(biāo)簽數(shù)據(jù)缺失等情況。因此,離線評(píng)估的結(jié)果是理想工程環(huán)境下的結(jié)果。

3)線上系統(tǒng)的某些商業(yè)指標(biāo)在離線評(píng)估中無(wú)法計(jì)算。離線評(píng)估一般是針對(duì)模型本身進(jìn)行評(píng)估,而與模型相關(guān)的其他指標(biāo),特別是商業(yè)指標(biāo),往往無(wú)法直接獲得。比如,上線了新的推薦算法,離線評(píng)估往往關(guān)注的是ROC曲線、P-R曲線等的改進(jìn),而線上評(píng)估可以全面了解該推薦算法帶來(lái)的用戶點(diǎn)擊率、留存時(shí)長(zhǎng)、PV等的變化。

4.2、如何進(jìn)行線上的A/B測(cè)試?

  • 參考答案

進(jìn)行A/B測(cè)試的主要手段是進(jìn)行用戶分桶,即將用戶分成實(shí)驗(yàn)組和對(duì)照組,對(duì)實(shí)驗(yàn)組的用戶施以新模型,對(duì)對(duì)照組的用戶施以舊模型

在分桶的過(guò)程中要注意樣本的獨(dú)立性和采樣方式的無(wú)偏性,確保同一個(gè)用戶每次只能分到同一個(gè)桶中,在分桶過(guò)程中所選取的user_id需要是一個(gè)隨機(jī)數(shù),這樣才能保證桶中的樣本是無(wú)偏的。

5、模型評(píng)估的方法

在機(jī)器學(xué)習(xí)中,我們通常把樣本分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于評(píng)估模型。

5.1、在模型評(píng)估中,有哪些主要的驗(yàn)證方法,它們的優(yōu)缺點(diǎn)是什么?

  • 我的回答

1、數(shù)據(jù)集較小時(shí),可以使用交叉驗(yàn)證法,或k-折驗(yàn)證法。即將數(shù)據(jù)集分為k份,然后每次留出其中一份用作驗(yàn)證集,剩下k-1份用作訓(xùn)練集,最后將k次檢驗(yàn)誤差做平均得到最終結(jié)果。

2、數(shù)據(jù)集足夠大時(shí),可以直接將數(shù)據(jù)集按照60%、20%、20%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

  • 參考答案

1、Holdout檢驗(yàn)

Holdout檢驗(yàn)是最簡(jiǎn)單也是最直接的驗(yàn)證方法,它將原始的樣本集隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說(shuō),對(duì)于一個(gè)點(diǎn)擊率預(yù)測(cè)模型,我們把樣本按照70%和30%的比例分成兩部分,70%的樣本用于模型訓(xùn)練; 30% 的樣本用 于模型驗(yàn)證,包括繪制ROC曲線、計(jì)算精確率和召回率等指標(biāo)來(lái)評(píng)估模型性能。

Holdout檢驗(yàn)的缺點(diǎn)很明顯,即在驗(yàn)證集上計(jì)算出來(lái)的最后評(píng)估指標(biāo)與原始分組有很大關(guān)系。為了消除隨機(jī)性,研究者們引入了“交叉檢驗(yàn)”的思想。

2、交叉檢驗(yàn)

k-fold交叉驗(yàn)證:首先將全部樣本劃分成k個(gè)大小中目等的樣本子集,依次遍歷這k個(gè)子集,每次把當(dāng)前子集作為驗(yàn)證集,其余子集作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評(píng)估;最后把k次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。在實(shí)際實(shí)驗(yàn)中,k經(jīng)常取10。

3、自助法

不管是Holdout檢驗(yàn)還是交叉檢驗(yàn),都是基于劃分訓(xùn)練集和測(cè)試集的方法進(jìn)行模型評(píng)估的。然而,當(dāng)樣本規(guī)模比較小時(shí),將樣本集進(jìn)行劃分會(huì)讓訓(xùn)練集進(jìn)一步減小,這可能會(huì)影響模型訓(xùn)練效果。有沒有能維持訓(xùn)練集樣本規(guī)模的驗(yàn)證方法呢?自助法可以比較好地解決這個(gè)問(wèn)題。

自助法是基于自助采樣法的檢驗(yàn)方法。對(duì)于總數(shù)為n的樣本集合進(jìn)行n次有放回的隨機(jī)抽樣,得到大小為n的訓(xùn)練集n次采樣過(guò)程中有的樣本會(huì)被重復(fù)采樣,有的樣本則沒被抽出過(guò),將這些沒被抽出的樣本作為驗(yàn)證集,進(jìn)行模型驗(yàn)證,這就是自助法的驗(yàn)證過(guò)程。

5.2、在自助法的采樣過(guò)程中,對(duì)n個(gè)樣本進(jìn)行n次自助抽樣,當(dāng)n趨于無(wú)窮大時(shí),最終有多少數(shù)據(jù)從未被選擇過(guò)?

  • 我的回答

由于是有放回采樣,故每次采樣過(guò)程中每個(gè)樣本未被選擇的概率均為1-\frac{1}{n},從而一個(gè)樣本n次采樣均未被選擇到的概率為:

\lim_{n\rightarrow\infty}(1-\frac{1}{n})^n=\frac{1}{e}

故最終大約有\frac{1}{e}的數(shù)據(jù)從未被選擇過(guò)。

  • 參考答案

同上。

6、超參數(shù)調(diào)優(yōu)

6.1、超參數(shù)有哪些調(diào)優(yōu)方法?

  • 我的回答

1、可以手動(dòng)給各個(gè)超參數(shù)設(shè)定一些候選值,然后采用網(wǎng)格搜索的方法找出在驗(yàn)證集上表現(xiàn)最好的模型對(duì)應(yīng)的一組超參數(shù)。

2、若沒有設(shè)定超參數(shù)候選值的相關(guān)經(jīng)驗(yàn),可以采用隨機(jī)搜索的方法。

3、還可以采用啟發(fā)式的算法,讓超參數(shù)也可以向誤差減小的方向移動(dòng)。

  • 參考答案

1、網(wǎng)格搜索

網(wǎng)格搜索可能是最簡(jiǎn)單、應(yīng)用最廣泛的超參數(shù)搜索算法,它通過(guò)查找搜索范圍內(nèi)的所有的點(diǎn)來(lái)確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長(zhǎng),網(wǎng)格搜索很大概率可以找到全局最優(yōu)值。然而,這種搜索方案十分消耗計(jì)算資源和時(shí)間,特別是需要調(diào)優(yōu)的超參數(shù)比較多的時(shí)候。因此在實(shí)際應(yīng)用中,網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長(zhǎng),來(lái)尋找全局最優(yōu)值可能的位置;然后會(huì)逐漸縮小搜索范圍和步長(zhǎng),來(lái)尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量, 但由于目標(biāo)函數(shù)一般是非凸的,所以很可能會(huì)錯(cuò)過(guò)全局最優(yōu)值

2、隨機(jī)搜索

隨機(jī)搜索的思想與網(wǎng)格搜索比較相似,只是不再測(cè)試上界和下界之間的所有值,而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是,如果樣本點(diǎn)集足夠大,那么通過(guò)隨機(jī)采樣也能大概率地找到全局最優(yōu)值,或其近似值。隨機(jī)搜索一般會(huì)比網(wǎng)格搜索要快一些,但是和網(wǎng)格搜索的快速版一樣,它的結(jié)果也是沒法保證的

3、貝葉斯優(yōu)化算法

貝葉斯優(yōu)化算法在尋找最優(yōu)最值參數(shù)時(shí),采用了與網(wǎng)格搜索、隨機(jī)搜索完全不同的方法。網(wǎng)格搜索和隨機(jī)搜索在測(cè)試一個(gè)新點(diǎn)時(shí),會(huì)忽略前一個(gè)點(diǎn)的信息,而貝葉斯優(yōu)化算法則充分利用了之前的信息。貝葉斯優(yōu)化算法通過(guò)對(duì)目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí),找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。具體來(lái)說(shuō),它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是,先根據(jù)先驗(yàn)分布,假設(shè)一個(gè)搜集函數(shù),然后,每一次使用新的采樣點(diǎn)來(lái)測(cè)試目標(biāo)函數(shù)時(shí),利用這個(gè)信息來(lái)更新目標(biāo)函數(shù)的先驗(yàn)分布;最后,算法測(cè)試由后驗(yàn)分布給出的全局最優(yōu)值最可能出現(xiàn)的位置的點(diǎn)

7、過(guò)擬合欠擬合

在模型評(píng)估與調(diào)整的過(guò)程中,我們往往會(huì)遇到“過(guò)擬合”或“欠擬合”的情況 。 如何有效地識(shí)別過(guò)擬合和欠擬合現(xiàn)象,并有針對(duì)性地進(jìn)行模型調(diào)整,是不斷改進(jìn)機(jī)器學(xué)習(xí)模型的關(guān)鍵。

7.1、在模型評(píng)估過(guò)程中,過(guò)擬合和欠擬合具體是指什么現(xiàn)象?

  • 我的回答

1、過(guò)擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能良好而在測(cè)試集上性能較差。這意味著模型學(xué)到了一些訓(xùn)練集具有而測(cè)試集不具有的特征,而我們關(guān)注的是數(shù)據(jù)總體都具有的普適性特征,因此稱模型產(chǎn)生了過(guò)擬合。

2、欠擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能較差而在測(cè)試集上性能也較差。這意味著模型連訓(xùn)練集的數(shù)據(jù)都沒有學(xué)好,導(dǎo)致模型未捕捉到足夠的數(shù)據(jù)中的有效特征。

  • 參考答案

過(guò)擬合是指模型對(duì)于訓(xùn)練數(shù)據(jù)擬合呈過(guò)當(dāng)?shù)那闆r,反映到評(píng)估指標(biāo)上,就是模型在訓(xùn)練集上的表現(xiàn)很好,但在測(cè)試集和新數(shù)據(jù)上的表現(xiàn)較差。欠擬合指的是模型在訓(xùn)練和預(yù)測(cè)時(shí)表現(xiàn)都不好的情況。

7.2、能否說(shuō)出幾種降低過(guò)擬合和欠擬合風(fēng)險(xiǎn)的方法?

  • 我的回答

1、針對(duì)過(guò)擬合:

1)正則化方法。約束模型的復(fù)雜度,避免過(guò)強(qiáng)的模型學(xué)到訓(xùn)練集中不重要的特征。

2)增加訓(xùn)練集數(shù)據(jù)量。模型過(guò)擬合是因?yàn)閷W(xué)到了訓(xùn)練數(shù)據(jù)中的噪聲或不重要的特征,數(shù)據(jù)量變多可以降低過(guò)擬合的風(fēng)險(xiǎn)。

2、針對(duì)欠擬合:

采用更復(fù)雜的模型。欠擬合通常是由模型表達(dá)能力不足導(dǎo)致的,因此發(fā)生欠擬合時(shí)應(yīng)考慮使用表達(dá)能力更強(qiáng)的模型來(lái)進(jìn)行學(xué)習(xí)。

  • 參考答案

1、降低“過(guò)擬合”風(fēng)險(xiǎn)的方法:

1)從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。使用更多的訓(xùn)練數(shù)據(jù)是解決過(guò)擬合問(wèn)題最高效的手段,因?yàn)楦嗟臉颖灸軌蜃屇P蛯W(xué)習(xí)到更多更高效的特征,減小噪聲的影響。

2)降低模型復(fù)雜度。 在數(shù)據(jù)較少時(shí)模型過(guò)于復(fù)雜是產(chǎn)生過(guò)擬合的主要因素,適當(dāng)降低模型復(fù)雜度可以避免模型擬合過(guò)多的采樣噪聲。例如,在神經(jīng)網(wǎng)絡(luò)模型中減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元個(gè)數(shù)等;在決策樹模型中降低樹的深度 、進(jìn)行剪枝等。

3)正則化方法。 給模型的參數(shù)加上一定的正則約束,比如將權(quán)值的大小加入到損失函數(shù)中 。

4)集成學(xué)習(xí)方法。集成學(xué)習(xí)是把多個(gè)模型集成在一起,來(lái)降低單一模型的過(guò)擬合風(fēng)險(xiǎn),如 Bagging方法。

2、降低“欠擬合”風(fēng)險(xiǎn)的方法:

1)添加新特征。當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí),模型容易出現(xiàn)欠擬合。通過(guò)挖掘“上下文特征”、“ ID 類特征”、“組合特征”等新的特征,往往能夠取得更好的效果。在深度學(xué)習(xí)潮流中,有很多模型可以幫助完成特征工程,如因子分解機(jī)、梯度提升決策樹、Deep-crossing等都可以成為豐富特征的方法。

2)增加模型復(fù)雜度。簡(jiǎn)單模型的學(xué)習(xí)能力較差,通過(guò)增加模型的復(fù)雜度可以便模型擁高更強(qiáng)的擬合能力。例如,在線性模型中添加高次項(xiàng),在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。

3)減小正則化系數(shù)。正則化是用來(lái)防止過(guò)擬合的,但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí),則需要高針對(duì)性地減小正則化系數(shù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容