1.2.評價一個模型的學習能力——欠擬合、過擬合、偏差和方差

評價模型的學習能力

紅色:訓練集表現
綠色和藍色:驗證集表現
如果結果是紅線和綠線,說明模型在訓練集和測試集上表現一致,起碼沒有過擬合。
如果紅線和綠線的準確率偏低,說明模型學習能力不行,不夠復雜,需要增加模型的復雜度。
如果是紅線和藍線,說明出現了過擬合。

評價模型的學習能力,會有這樣一些術語:Under fitting ove fitting /high bias / high vairance variance。我們就徹底解釋一下這些術語的含義。

先給結論:

從模型預測表現來說,會有over fitting和under fitting兩個現象。

兩個現象的量化指標分別對應著variance和bias。

偏差高說明模型欠擬合;

方差高說明模型欠擬合。

偏差(bias)

我們評價模型的學習能力時,是從它的預測結果來看的。也就是預測值和真實值之間的差異程度。這個差異程度就是所謂的偏差。

如果模型的預測能力不行,自然偏差就會很大。

偏差評價的是模型越策的準確程度。

方差

還有一個評價角度,就是方差。

方差評價的是模型的抗干擾能力,或者說模型的穩定程度。

方差描述的是預測值的變化范圍、離散程度。

一般來說,對于看起來很像的兩個樣本,我們對他們的預測結果應該也差不多。這是一個合理的要求。但如果不是這樣,如果數據稍有變化,預測結果就有翻天覆地的變化,所謂差之毫厘目之千里。這就說明模型的抗干擾能力很差,術語就是模型過擬合了。

方差說的是數據擾動對于模型預測結果的影響,評價的是模型的抗干擾能力。方差越大,預測結果的分布越分散。

為了便于理解,我們用學生學習考試為例說明。

學生的under fitting

如果說,一個學生的智商不行,那么不管怎么學習,考試成績都不會好。表現出來的是,不管題目難還是容易,都考不好。也有可能學習的內容過于超前了,比如讓小學生學習微積分,即使智力再好,也會很吃力。

這種情況,就是我們所說的underfitting,也就是模型的預測能力不行。原因就是模型的復雜度不夠、或者模型參數不夠。

學生的over fitting

還有一種情況,一個學生的智商很高,過目不忘,但是學習上愛耍小聰明,他就把所有看過的題目的答案都記下來了,但是不去真正的學習。

所以在考試時,如果考題和他見過的題一模一樣,那他會考的很好,甚至滿分。一旦題目稍有變化,他就不靈了。不管題目容易還是難,他都會掛掉。

這種情況對應的就是所謂的over fitting。就是模型可能對那些和訓練樣本一模一樣的測試樣本預測結果非常好,但是樣本稍有變化,模型的預測結果就會差之千里。

解決方法

對于underfitting,我們應該考慮增加模型的復雜度,比如把線性變成非線性。

對于overfitting,我們應該考慮增加樣本量,或者加入 正則項。我們通常不會用降低模型復雜度的方式去解決overfitting的問題,就像對于那些極聰明的學生,我們不是去壓制他們的能力,而是糾正他們的學習態度。

結論

欠擬合:說明模型的學習能力不行,或者說模型復雜程度不夠,就像一個小學生非讓他學習高中的內容,所以它再怎么努力,也是學不到滿意結果的。就像本來是一個二次曲線問題,非要用一個線性模型去擬合,怎么也得不到滿意效果。這時表現的是高偏差,也就是預測結果和真實結果偏離太遠。
而underfitting,是說這個學生成績很糟,不管難題還是簡單題,都很糟,因為就是學習能力有限,腦子不夠聰明。

過擬合:說的是一個人可能非常聰明,記憶力非常好,所以它不是好好學習,而是把給它的所有的數據(或者練習題、答案)都記住,這時,如果遇到的考題是一模一樣的,那他答得就會很好,如果考題稍有變化,那就一團糟。對模型來說,就是模型過于復雜。

這時表現是高方差,其實說的就是x稍有變化,y就有巨大變化。很難評價這個人學得怎么樣,難題、簡單題都可能回答正確或者錯誤,只要他曾經遇到過這樣的練習題。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,595評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,814評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,224評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,444評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,988評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,804評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,998評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,237評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,706評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,993評論 2 374

推薦閱讀更多精彩內容