序
面試過程中經常會被問到關于方差和偏差的概念以及比對。
偏差
偏差度量了學習算法的期望預測值與真實結果間的偏離程度,也就是刻畫了模型本身的擬合能力,也就是偏差越大,意味著預測值越偏離真實數據。
高偏差
最直觀的感受就是,如果訓練誤差很大,測試誤差與訓練誤差相當,那么此時表明模型對訓練數據的擬合并不是很好,這就是高偏差。
方差
方差刻畫了同樣大小訓練集的變動所導致的學習性能的變化,即刻畫了數據擾動所造成的影響。說白了就是對預測值方差的描述,方差越大,則數據的分布越分散。
高方差
如果訓練誤差遠高于測試誤差,那么說明模型過擬合,此時表明模型的方差較高;
上述所指的模型誤差是相對的,例如,人類肉眼識別貓狗的誤差若在0.5%左右的話,那么我們的模型誤差在其附近是合理的,因此,對于這種相對的誤差而言,將其稱作是先驗知識,也就是貝葉斯誤差。
偏差方差不可同求
偏差和方差不能同時滿足。
在模型訓練初期,由于迭代輪數較小,此時算法未能完全學習到訓練集數據的內容,因此,此時模型的泛華錯誤率主要來自偏差,而隨著輪數不斷加深,算法完全擬合了訓練集,學習到了訓練集數據的波動規律,此時主要泛化錯誤率來自于方差。而再隨著迭代的加深,訓練數據的非全局性,非代表性的規律被學習到后,此時發生一點數據波動,模型都會被嚴重影響,此時可能發生了過擬合。
噪聲
刻畫了任何一種學習算法在該數據集上所能達到的期望泛化誤差的下界,也就是刻畫了學習問題本身的難度。
泛化性能與上述指標的關系
其實上述是指標共同構成的是泛化性能的大小,也就是說,泛化性能是由該算法的能力、數據的好壞以及學習任務本身的難度所共同決定的。給定一個學習任務,為了取得較好的泛化性能,需使得偏差較小,即能夠充分擬合數據,同時要使得方差較小,也就是數據擾動帶來的影響盡量小。