過擬合
學(xué)習(xí)器在訓(xùn)練集上面的誤差稱為“訓(xùn)練誤差”或“經(jīng)驗(yàn)誤差”,新樣本上面的誤差稱為“泛化誤差”。當(dāng)學(xué)習(xí)器把訓(xùn)練集訓(xùn)練的“太好”,把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)做所有潛在樣本的性質(zhì),導(dǎo)致泛化能力下降,稱為過擬合,表現(xiàn)為模型在訓(xùn)練集上面效果好,在測(cè)試集上效果差,即訓(xùn)練誤差減小,而泛化誤差增加。與之相對(duì)的是“欠擬合”。
防止過擬合的方法:
1、增大數(shù)據(jù)集
2、Early Stopping
3、正則化,常用L1、L2正則化
4、Dropout
增大數(shù)據(jù)集:
a、從數(shù)據(jù)源頭獲取更多數(shù)據(jù)
b、數(shù)據(jù)增強(qiáng):通過一定規(guī)則擴(kuò)充數(shù)據(jù)。如在物體分類問題里,物體在圖像中的位置、姿態(tài)、尺度,整體圖片明暗度等都不會(huì)影響分類結(jié)果,通過圖像平移、翻轉(zhuǎn)、縮放、裁剪等將數(shù)據(jù)擴(kuò)充;
Early Stopping 通過迭代次數(shù)截?cái)嗟姆椒▉矸乐惯^擬合的方法,當(dāng)在訓(xùn)練集上誤差較小,在驗(yàn)證集誤差開始增大時(shí)停止訓(xùn)練。
3、L1正則化?
L2正則化
L1會(huì)帶來稀疏矩陣,L2會(huì)使參數(shù)更小
4、Dropout
在訓(xùn)練開始時(shí),隨機(jī)得刪除一些隱藏層神經(jīng)元(1/2,1/3,1/4),,相當(dāng)于訓(xùn)練了很多個(gè)只有半數(shù)隱層單元的神經(jīng)網(wǎng)絡(luò),每一個(gè)這樣的半數(shù)網(wǎng)絡(luò),都可以給出一個(gè)分類結(jié)果,這些結(jié)果有的是正確的,有的是錯(cuò)誤的。隨著訓(xùn)練的進(jìn)行,大部分半數(shù)網(wǎng)絡(luò)都可以給出正確的分類結(jié)果,那么少數(shù)的錯(cuò)誤分類結(jié)果就不會(huì)對(duì)最終結(jié)果造成大的影響。