在計(jì)算機(jī)科學(xué)特別是機(jī)器學(xué)習(xí)領(lǐng)域中,對(duì)模型的評(píng)估至關(guān)重要。只有選擇與問(wèn)題相匹配的評(píng)估方法,才能快速地發(fā)現(xiàn)模型選擇或訓(xùn)練過(guò)程中出現(xiàn)的問(wèn)題,迭代地對(duì)模型進(jìn)行優(yōu)化。
1、評(píng)估指標(biāo)的局限性
在模型評(píng)估過(guò)程中,分類問(wèn)題、排序問(wèn)題、回歸問(wèn)題往往需要使用不同的指標(biāo)進(jìn)行評(píng)估。在諸多的評(píng)估指標(biāo)中,大部分指標(biāo)只能片面地反映模型的一部分性能。 如果不能合理地運(yùn)用評(píng)估指標(biāo) ,不僅不能發(fā)現(xiàn)模型本身的問(wèn)題,而且會(huì)得出錯(cuò)誤的結(jié)論。
1.1、準(zhǔn)確率這一指標(biāo)有何局限性?
- 我的回答:
準(zhǔn)確率又稱為精度,是我們解決分類問(wèn)題時(shí)最常用來(lái)衡量結(jié)果好壞所用的指標(biāo)。其定義如下:
準(zhǔn)確率的局限性在于不能很好地處理不平衡樣本(Unbalanced Sample)的情況,比如我們的訓(xùn)練樣本中99%都是正例,只有1%是負(fù)例,那么即使我們的分類器將所有樣本類別預(yù)測(cè)為正,也有99%的準(zhǔn)確率,但很顯然,這個(gè)模型并不好,尤其是我們特別關(guān)注的是1%的負(fù)例的時(shí)候(比如安檢時(shí)的恐怖分子篩查、對(duì)一些癥狀不明朗的病人進(jìn)行確診等等)。
- 參考答案:
通過(guò)實(shí)例闡述了我的回答。
1.2、為什么要權(quán)衡精確率與召回率?如何權(quán)衡?
- 我的回答:
1、關(guān)于精確率與召回率,我昨天剛看了一篇博客,講解得很清晰了,博客中舉了登機(jī)前恐怖分子篩查的例子。每年100萬(wàn)的乘客中,有18名恐怖分子,這是典型的樣本不平衡的情況,若采用準(zhǔn)確率進(jìn)行衡量,那么直接判定所有乘客均不是恐怖分子的模型將會(huì)獲得接近1的準(zhǔn)確率,但很明顯這樣的模型是無(wú)用的。
召回率(recall)定義如下:
在本例中對(duì)應(yīng)的是18名恐怖分子中被篩查出來(lái)的比例。這一指標(biāo)看似完美,但一個(gè)將所有乘客標(biāo)為恐怖分子的模型的召回率為1,但顯然,這樣的模型也是沒有意義的。這時(shí)我們需要另一個(gè)指標(biāo)來(lái)制衡。
精確率(precision)定義如下:
在本例中對(duì)應(yīng)的是所有被模型標(biāo)為恐怖分子的人中有多少比例真的是恐怖分子。在保證召回率較高的同時(shí)使得精確率也較高就可以避免上述問(wèn)題。
綜上我們希望權(quán)衡精確率與召回率,使得兩者都比較高。兩個(gè)指標(biāo)誰(shuí)更重要視具體問(wèn)題而定。
2、權(quán)衡精確率與召回率的方法有很多,包括曲線、
曲線等,也可以使用指標(biāo)
:
也就是和
兩者的調(diào)和平均。
之所以使用調(diào)和平均而不是算術(shù)平均,是因?yàn)?strong>調(diào)和平均會(huì)懲罰極端值。比如下面兩種情況:
為0.5,
為0.5
為0,
為1
若使用算術(shù)平均值兩者一樣好,但實(shí)際上第二種情況是我們應(yīng)該避免的。調(diào)和平均可以幫我們避免這種情況的出現(xiàn)。
- 參考答案:
和我的回答差不多,額外補(bǔ)充了曲線的畫法,這部分放在后面和
曲線一起說(shuō)。
1.3、無(wú)論采用哪種回歸模型得到的RMSE指標(biāo)都非常高。然而事實(shí)是模型在95%的時(shí)間內(nèi)預(yù)測(cè)誤差都小于1%,取得了相當(dāng)不錯(cuò)的預(yù)測(cè)結(jié)果。造成RMSE指標(biāo)居高不下的最可能的原因是什么?如何解決呢?
- 我的回答:
1、有少數(shù)噪聲點(diǎn)和離群點(diǎn)使得RMSE指標(biāo)非常高。
2、解決方案就是在清洗數(shù)據(jù)的時(shí)候把這些離群點(diǎn)過(guò)濾出去或者選用對(duì)離群點(diǎn)更穩(wěn)健的指標(biāo)。
- 參考答案:
1、一般情況下, RMSE能夠很好地反映回歸模型預(yù)測(cè)值與真實(shí)值的偏離程度。但在實(shí)際問(wèn)題中,如果存在個(gè)別偏離程度非常大的離群點(diǎn)(Outlier)時(shí),即使離群點(diǎn)數(shù)量非常少也會(huì)讓RMSE指標(biāo)變得很差。
2、解決方案如下:
1)如果我們認(rèn)定這些離群點(diǎn)是“噪聲點(diǎn)”的話,就需要在數(shù)據(jù)預(yù)處理的階段把這些噪聲點(diǎn)過(guò)濾掉 。
2)如果不認(rèn)為這些離群點(diǎn)是“噪聲點(diǎn)”的話,就需要進(jìn)一步提高模型的預(yù)測(cè)能力, 將離群點(diǎn)產(chǎn)生的機(jī)制建模進(jìn)去。
3)可以找一個(gè)更合適的指標(biāo)采評(píng)估該模型。關(guān)于評(píng)估指標(biāo),存在比RMSE的魯棒性更好的指標(biāo),比如平均絕對(duì)百分比誤差(MAPE),其定義為:
相比RMSE,MAPE相當(dāng)于把每個(gè)點(diǎn)的誤差進(jìn)行了歸一化,降低了個(gè)別離群點(diǎn)帶來(lái)的絕對(duì)誤差的影響。
2、ROC曲線
二值分類器(BinaryClassifier )是機(jī)器學(xué)習(xí)領(lǐng)域中最常見也是應(yīng)用最廣泛的分類器。ROC曲線則經(jīng)常作為評(píng)估二值分類器最重要的指標(biāo)之一。
2.1、什么是ROC曲線?
- 我的回答:
ROC曲線是Receiver Operating Characteristic Curve的簡(jiǎn)稱,中文名為“受試者工作特征由線”。
ROC曲線的橫縱軸分別是什么記不清了……不過(guò)曲線下面積(AUC)越大說(shuō)明模型效果越好。
- 參考答案:
ROC曲線的橫坐標(biāo)為假正率(False Positive Rate, FPR),縱坐標(biāo)為真正率(True Positive Rate, TPR)。和
的計(jì)算方法分別為:
更深入的理解來(lái)自這里:
結(jié)合西瓜書中關(guān)于ROC曲線的畫法更容易理解上圖ROC的形狀:
2.2、如何繪制ROC曲線?
- 我的回答:
上圖已經(jīng)給出了詳細(xì)的畫法。
- 參考答案:
首先,根據(jù)樣本標(biāo)簽統(tǒng)計(jì)出正負(fù)樣本數(shù)量 ,假設(shè)正樣本數(shù)量為,負(fù)樣本數(shù)量為
;接下來(lái),把橫軸的刻度間隔設(shè)置為
,縱軸的刻度間隔設(shè)置為
;再根據(jù)模型輸出的預(yù)測(cè)概率對(duì)樣本進(jìn)行排序(從高到低);依次遍歷樣本,同時(shí)從零點(diǎn)開始繪制ROC曲線,每遇到一個(gè)正樣本就沿縱軸方向繪制一個(gè)刻度間隔的曲線,每遇到一個(gè)負(fù)樣本就沿橫軸方向繪制一個(gè)刻度間隔的曲線,直到遍歷完所有樣本,由線最終停在
這個(gè)點(diǎn),整個(gè)ROC曲線繪制完成。
2.3、如何計(jì)算AUC?
- 我的回答:
所謂AUC就是曲線下面積(Area Under Curve),以上圖為例,由于實(shí)際的ROC曲線是由折線構(gòu)成的,因此直接計(jì)算各矩形面積累加即可。
- 參考答案:
計(jì)算AUC值只需要沿著ROC橫軸做積分就可以了。由于ROC曲線一般都處于這條直線的上方(如果不是的話,只要把模型預(yù)測(cè)的概率
反轉(zhuǎn)成
就可以得到一個(gè)更好的分類器),所以AUC的取值一般在
之間。AUC越大 , 說(shuō)明分類器越可能把真正的正樣本排在前面,分類性能越好。
2.4、ROC曲線相比P-R曲線有什么特點(diǎn)?
- 我的回答:
ROC曲線的橫軸是假正率,縱軸是真正率。
P-R曲線的橫軸是精確率,縱軸是召回率(等于真正率)。
也就是說(shuō),兩者的縱軸其實(shí)是相同的指標(biāo),不同的地方在于橫軸。
至于由此導(dǎo)致的不同我就不太清楚了……
- 參考答案:
相比P-R曲線,ROC曲線有一個(gè)特點(diǎn),當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí),ROC曲線的形狀能夠基本保持不變,而P-R曲線的形狀一般會(huì)發(fā)生較劇烈的變化。
這個(gè)特點(diǎn)讓 ROC 曲線能夠盡量降低不同測(cè)試集帶來(lái)的干擾,更加客觀地衡量模型本身的性能。
3、余弦距離的應(yīng)用
在機(jī)器學(xué)習(xí)問(wèn)題中,通常將特征表示為向量的形式,所以在分析兩個(gè)特征向量之間的相似性時(shí)常使用余弦相似度來(lái)表示。余弦相似度的取值范圍是,相同的兩個(gè)向量之間的相似度為1。如果希望得到類似于距離的表示,1減去余弦相似度即為余弦距離。因此余弦距離的取值范圍為
,相同的兩個(gè)向量余弦距離為0。
3.1、為什么在一些場(chǎng)景中要使用余弦距離而不是歐氏距離?
- 我的回答:
因?yàn)闅W氏距離易受量綱和取值范圍影響,而余弦距離可以解決這個(gè)問(wèn)題。
比如我們想尋找電影品味相近的觀眾,假設(shè)現(xiàn)在有兩個(gè)觀眾及其對(duì)電影的評(píng)分,兩人電影評(píng)分的排序完全相同,但觀眾打分區(qū)間在
而觀眾
打分區(qū)間在
,這將導(dǎo)致兩個(gè)觀眾的歐氏距離很大,從而得出兩人觀影品味并不相似的結(jié)果。
- 參考答案:
總體來(lái)說(shuō),歐氏距離體現(xiàn)數(shù)值上的絕對(duì)差異,而余弦距離體現(xiàn)方向上的相對(duì)差異。
例如,統(tǒng)計(jì)兩部劇的用戶觀看行為,用戶的觀看向量為
,用戶
為
,此時(shí)二者的余弦距離很大, 而歐氏距離很小。我們分析兩個(gè)用戶對(duì)于不同視頻的偏好更關(guān)注相對(duì)差異,顯然應(yīng)當(dāng)使用余弦距離。 而當(dāng)我們分析用戶活躍度,以登陸次數(shù)和平均觀看時(shí)長(zhǎng)作為特征時(shí),余弦距離會(huì)認(rèn)為
兩個(gè)用戶距離很近,但顯然這兩個(gè)用戶活躍度是有著極大差異的,此時(shí)我們更關(guān)注數(shù)值絕對(duì)差異,應(yīng)當(dāng)使用歐氏距離 。
3.2、余弦距離是否是一個(gè)嚴(yán)格定義的距離?
- 我的回答:
一個(gè)嚴(yán)格定義的距離應(yīng)當(dāng)滿足非負(fù)性、對(duì)稱性和三角不等式。
顯然余弦距離滿足非負(fù)性和三角不等式,但其不滿足三角不等式。因此不是一個(gè)嚴(yán)格定義的距離。
- 參考答案:
如上所述,三角不等式性質(zhì)并不成立,因此余弦距離不是一個(gè)嚴(yán)格定義的距離。下面給出一個(gè)反例。設(shè),則:
因此:
在機(jī)器學(xué)習(xí)領(lǐng)域被稱為距離,卻不滿足三條距離公理的不僅僅有余弦距離,還有KL距離(Kullback-Leibler Divergence),也叫作相對(duì)熵,常用于計(jì)算兩個(gè)分布之間的差異,它不滿足對(duì)稱性和三角不等式。
4、A/B測(cè)試的陷阱
在互聯(lián)網(wǎng)公司中, A/B測(cè)試是驗(yàn)證新模塊、新功能、新產(chǎn)品是否高效,新算法、新模型的效果是否有提升,新設(shè)計(jì)是否受到用戶歡迎,新更改是否影響用戶體驗(yàn)的主要測(cè)試方法。在機(jī)器學(xué)習(xí)領(lǐng)域中,A/B測(cè)試是驗(yàn)證模型最終效果的主要手段。
這部分內(nèi)容我完全沒有接觸過(guò),所以就不班門弄斧了,直接整理參考答案。
4.1、在對(duì)模型避行過(guò)充分的離線評(píng)估之后,為什么還要進(jìn)行在線A/B測(cè)試?
- 參考答案:
需要進(jìn)行在線A/B測(cè)試的原因如下:
1)離線評(píng)估無(wú)法完全消除模型過(guò)擬合的影響,因此得出的離線評(píng)估結(jié)果無(wú)法完全替代線上評(píng)估結(jié)果。
2)離線評(píng)估無(wú)法完全還原線上的工程環(huán)境。 一般來(lái)講,離線評(píng)估往往不會(huì)考慮線上環(huán)境的延遲 、數(shù)據(jù)丟失、標(biāo)簽數(shù)據(jù)缺失等情況。因此,離線評(píng)估的結(jié)果是理想工程環(huán)境下的結(jié)果。
3)線上系統(tǒng)的某些商業(yè)指標(biāo)在離線評(píng)估中無(wú)法計(jì)算。離線評(píng)估一般是針對(duì)模型本身進(jìn)行評(píng)估,而與模型相關(guān)的其他指標(biāo),特別是商業(yè)指標(biāo),往往無(wú)法直接獲得。比如,上線了新的推薦算法,離線評(píng)估往往關(guān)注的是ROC曲線、P-R曲線等的改進(jìn),而線上評(píng)估可以全面了解該推薦算法帶來(lái)的用戶點(diǎn)擊率、留存時(shí)長(zhǎng)、PV等的變化。
4.2、如何進(jìn)行線上的A/B測(cè)試?
- 參考答案:
進(jìn)行A/B測(cè)試的主要手段是進(jìn)行用戶分桶,即將用戶分成實(shí)驗(yàn)組和對(duì)照組,對(duì)實(shí)驗(yàn)組的用戶施以新模型,對(duì)對(duì)照組的用戶施以舊模型。
在分桶的過(guò)程中要注意樣本的獨(dú)立性和采樣方式的無(wú)偏性,確保同一個(gè)用戶每次只能分到同一個(gè)桶中,在分桶過(guò)程中所選取的user_id需要是一個(gè)隨機(jī)數(shù),這樣才能保證桶中的樣本是無(wú)偏的。
5、模型評(píng)估的方法
在機(jī)器學(xué)習(xí)中,我們通常把樣本分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于評(píng)估模型。
5.1、在模型評(píng)估中,有哪些主要的驗(yàn)證方法,它們的優(yōu)缺點(diǎn)是什么?
- 我的回答:
1、數(shù)據(jù)集較小時(shí),可以使用交叉驗(yàn)證法,或-折驗(yàn)證法。即將數(shù)據(jù)集分為
份,然后每次留出其中一份用作驗(yàn)證集,剩下
份用作訓(xùn)練集,最后將
次檢驗(yàn)誤差做平均得到最終結(jié)果。
2、數(shù)據(jù)集足夠大時(shí),可以直接將數(shù)據(jù)集按照60%、20%、20%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
- 參考答案:
1、Holdout檢驗(yàn)
Holdout檢驗(yàn)是最簡(jiǎn)單也是最直接的驗(yàn)證方法,它將原始的樣本集隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說(shuō),對(duì)于一個(gè)點(diǎn)擊率預(yù)測(cè)模型,我們把樣本按照70%和30%的比例分成兩部分,70%的樣本用于模型訓(xùn)練; 30% 的樣本用 于模型驗(yàn)證,包括繪制ROC曲線、計(jì)算精確率和召回率等指標(biāo)來(lái)評(píng)估模型性能。
Holdout檢驗(yàn)的缺點(diǎn)很明顯,即在驗(yàn)證集上計(jì)算出來(lái)的最后評(píng)估指標(biāo)與原始分組有很大關(guān)系。為了消除隨機(jī)性,研究者們引入了“交叉檢驗(yàn)”的思想。
2、交叉檢驗(yàn)
-
交叉驗(yàn)證:首先將全部樣本劃分成
個(gè)大小中目等的樣本子集,依次遍歷這
個(gè)子集,每次把當(dāng)前子集作為驗(yàn)證集,其余子集作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評(píng)估;最后把
次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。在實(shí)際實(shí)驗(yàn)中,
經(jīng)常取10。
3、自助法
不管是Holdout檢驗(yàn)還是交叉檢驗(yàn),都是基于劃分訓(xùn)練集和測(cè)試集的方法進(jìn)行模型評(píng)估的。然而,當(dāng)樣本規(guī)模比較小時(shí),將樣本集進(jìn)行劃分會(huì)讓訓(xùn)練集進(jìn)一步減小,這可能會(huì)影響模型訓(xùn)練效果。有沒有能維持訓(xùn)練集樣本規(guī)模的驗(yàn)證方法呢?自助法可以比較好地解決這個(gè)問(wèn)題。
自助法是基于自助采樣法的檢驗(yàn)方法。對(duì)于總數(shù)為的樣本集合進(jìn)行
次有放回的隨機(jī)抽樣,得到大小為
的訓(xùn)練集。
次采樣過(guò)程中有的樣本會(huì)被重復(fù)采樣,有的樣本則沒被抽出過(guò),將這些沒被抽出的樣本作為驗(yàn)證集,進(jìn)行模型驗(yàn)證,這就是自助法的驗(yàn)證過(guò)程。
5.2、在自助法的采樣過(guò)程中,對(duì)
個(gè)樣本進(jìn)行
次自助抽樣,當(dāng)
趨于無(wú)窮大時(shí),最終有多少數(shù)據(jù)從未被選擇過(guò)?
- 我的回答:
由于是有放回采樣,故每次采樣過(guò)程中每個(gè)樣本未被選擇的概率均為,從而一個(gè)樣本
次采樣均未被選擇到的概率為:
故最終大約有的數(shù)據(jù)從未被選擇過(guò)。
- 參考答案:
同上。
6、超參數(shù)調(diào)優(yōu)
6.1、超參數(shù)有哪些調(diào)優(yōu)方法?
- 我的回答:
1、可以手動(dòng)給各個(gè)超參數(shù)設(shè)定一些候選值,然后采用網(wǎng)格搜索的方法找出在驗(yàn)證集上表現(xiàn)最好的模型對(duì)應(yīng)的一組超參數(shù)。
2、若沒有設(shè)定超參數(shù)候選值的相關(guān)經(jīng)驗(yàn),可以采用隨機(jī)搜索的方法。
3、還可以采用啟發(fā)式的算法,讓超參數(shù)也可以向誤差減小的方向移動(dòng)。
- 參考答案:
1、網(wǎng)格搜索
網(wǎng)格搜索可能是最簡(jiǎn)單、應(yīng)用最廣泛的超參數(shù)搜索算法,它通過(guò)查找搜索范圍內(nèi)的所有的點(diǎn)來(lái)確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長(zhǎng),網(wǎng)格搜索很大概率可以找到全局最優(yōu)值。然而,這種搜索方案十分消耗計(jì)算資源和時(shí)間,特別是需要調(diào)優(yōu)的超參數(shù)比較多的時(shí)候。因此在實(shí)際應(yīng)用中,網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長(zhǎng),來(lái)尋找全局最優(yōu)值可能的位置;然后會(huì)逐漸縮小搜索范圍和步長(zhǎng),來(lái)尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量, 但由于目標(biāo)函數(shù)一般是非凸的,所以很可能會(huì)錯(cuò)過(guò)全局最優(yōu)值。
2、隨機(jī)搜索
隨機(jī)搜索的思想與網(wǎng)格搜索比較相似,只是不再測(cè)試上界和下界之間的所有值,而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是,如果樣本點(diǎn)集足夠大,那么通過(guò)隨機(jī)采樣也能大概率地找到全局最優(yōu)值,或其近似值。隨機(jī)搜索一般會(huì)比網(wǎng)格搜索要快一些,但是和網(wǎng)格搜索的快速版一樣,它的結(jié)果也是沒法保證的。
3、貝葉斯優(yōu)化算法
貝葉斯優(yōu)化算法在尋找最優(yōu)最值參數(shù)時(shí),采用了與網(wǎng)格搜索、隨機(jī)搜索完全不同的方法。網(wǎng)格搜索和隨機(jī)搜索在測(cè)試一個(gè)新點(diǎn)時(shí),會(huì)忽略前一個(gè)點(diǎn)的信息,而貝葉斯優(yōu)化算法則充分利用了之前的信息。貝葉斯優(yōu)化算法通過(guò)對(duì)目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí),找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。具體來(lái)說(shuō),它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是,先根據(jù)先驗(yàn)分布,假設(shè)一個(gè)搜集函數(shù),然后,每一次使用新的采樣點(diǎn)來(lái)測(cè)試目標(biāo)函數(shù)時(shí),利用這個(gè)信息來(lái)更新目標(biāo)函數(shù)的先驗(yàn)分布;最后,算法測(cè)試由后驗(yàn)分布給出的全局最優(yōu)值最可能出現(xiàn)的位置的點(diǎn)。
7、過(guò)擬合欠擬合
在模型評(píng)估與調(diào)整的過(guò)程中,我們往往會(huì)遇到“過(guò)擬合”或“欠擬合”的情況 。 如何有效地識(shí)別過(guò)擬合和欠擬合現(xiàn)象,并有針對(duì)性地進(jìn)行模型調(diào)整,是不斷改進(jìn)機(jī)器學(xué)習(xí)模型的關(guān)鍵。
7.1、在模型評(píng)估過(guò)程中,過(guò)擬合和欠擬合具體是指什么現(xiàn)象?
- 我的回答:
1、過(guò)擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能良好而在測(cè)試集上性能較差。這意味著模型學(xué)到了一些訓(xùn)練集具有而測(cè)試集不具有的特征,而我們關(guān)注的是數(shù)據(jù)總體都具有的普適性特征,因此稱模型產(chǎn)生了過(guò)擬合。
2、欠擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能較差而在測(cè)試集上性能也較差。這意味著模型連訓(xùn)練集的數(shù)據(jù)都沒有學(xué)好,導(dǎo)致模型未捕捉到足夠的數(shù)據(jù)中的有效特征。
- 參考答案:
過(guò)擬合是指模型對(duì)于訓(xùn)練數(shù)據(jù)擬合呈過(guò)當(dāng)?shù)那闆r,反映到評(píng)估指標(biāo)上,就是模型在訓(xùn)練集上的表現(xiàn)很好,但在測(cè)試集和新數(shù)據(jù)上的表現(xiàn)較差。欠擬合指的是模型在訓(xùn)練和預(yù)測(cè)時(shí)表現(xiàn)都不好的情況。
7.2、能否說(shuō)出幾種降低過(guò)擬合和欠擬合風(fēng)險(xiǎn)的方法?
- 我的回答:
1、針對(duì)過(guò)擬合:
1)正則化方法。約束模型的復(fù)雜度,避免過(guò)強(qiáng)的模型學(xué)到訓(xùn)練集中不重要的特征。
2)增加訓(xùn)練集數(shù)據(jù)量。模型過(guò)擬合是因?yàn)閷W(xué)到了訓(xùn)練數(shù)據(jù)中的噪聲或不重要的特征,數(shù)據(jù)量變多可以降低過(guò)擬合的風(fēng)險(xiǎn)。
2、針對(duì)欠擬合:
采用更復(fù)雜的模型。欠擬合通常是由模型表達(dá)能力不足導(dǎo)致的,因此發(fā)生欠擬合時(shí)應(yīng)考慮使用表達(dá)能力更強(qiáng)的模型來(lái)進(jìn)行學(xué)習(xí)。
- 參考答案:
1、降低“過(guò)擬合”風(fēng)險(xiǎn)的方法:
1)從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。使用更多的訓(xùn)練數(shù)據(jù)是解決過(guò)擬合問(wèn)題最高效的手段,因?yàn)楦嗟臉颖灸軌蜃屇P蛯W(xué)習(xí)到更多更高效的特征,減小噪聲的影響。
2)降低模型復(fù)雜度。 在數(shù)據(jù)較少時(shí)模型過(guò)于復(fù)雜是產(chǎn)生過(guò)擬合的主要因素,適當(dāng)降低模型復(fù)雜度可以避免模型擬合過(guò)多的采樣噪聲。例如,在神經(jīng)網(wǎng)絡(luò)模型中減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元個(gè)數(shù)等;在決策樹模型中降低樹的深度 、進(jìn)行剪枝等。
3)正則化方法。 給模型的參數(shù)加上一定的正則約束,比如將權(quán)值的大小加入到損失函數(shù)中 。
4)集成學(xué)習(xí)方法。集成學(xué)習(xí)是把多個(gè)模型集成在一起,來(lái)降低單一模型的過(guò)擬合風(fēng)險(xiǎn),如 Bagging方法。
2、降低“欠擬合”風(fēng)險(xiǎn)的方法:
1)添加新特征。當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí),模型容易出現(xiàn)欠擬合。通過(guò)挖掘“上下文特征”、“ ID 類特征”、“組合特征”等新的特征,往往能夠取得更好的效果。在深度學(xué)習(xí)潮流中,有很多模型可以幫助完成特征工程,如因子分解機(jī)、梯度提升決策樹、Deep-crossing等都可以成為豐富特征的方法。
2)增加模型復(fù)雜度。簡(jiǎn)單模型的學(xué)習(xí)能力較差,通過(guò)增加模型的復(fù)雜度可以便模型擁高更強(qiáng)的擬合能力。例如,在線性模型中添加高次項(xiàng),在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。
3)減小正則化系數(shù)。正則化是用來(lái)防止過(guò)擬合的,但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí),則需要高針對(duì)性地減小正則化系數(shù)。