機(jī)器學(xué)習(xí) Chapter 2 模型評(píng)估與選擇

錯(cuò)誤率(error rate): 分類錯(cuò)誤樣本數(shù)占樣本總數(shù)的比例, E=a/m
精度(accuracy):= 1 - 錯(cuò)誤率, 1-a/m

誤差:學(xué)習(xí)器實(shí)際預(yù)測(cè)輸入 VS 樣本真實(shí)輸出
訓(xùn)練誤差(training error)/經(jīng)驗(yàn)誤差(empirical error):在訓(xùn)練集上的誤差
泛化誤差:在新樣本上的誤差


過(guò)擬合(overfitting)VS 欠擬合(underfitting)

過(guò)擬合是無(wú)法避免的 只能緩解或減小其風(fēng)險(xiǎn)


評(píng)估方法

混淆矩陣(confusion matrix)

查準(zhǔn)率 P: P = TP/(TP+FP) (選出的瓜中 好瓜比例好 有把握才下手 會(huì)漏掉一些好瓜)
查全率 R: R = TP(TP+FN) (好瓜盡可能多的選出 選上全部西瓜 查準(zhǔn)率低)
二者大部分時(shí)是矛盾的

根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果排序,“最可能” -> “最不可能”,按此順序逐個(gè)把樣本作為正例預(yù)測(cè),得出P-R圖



若曲線被完全“包住”,則性能優(yōu) e.g. A性能優(yōu)于C
若交叉,則難以判斷(如A與B)。可以考慮特定點(diǎn)下比較 或比較曲線面積。

平衡點(diǎn)(Break-Even Point) BEP: 查準(zhǔn)率 = 查全率 (A is better than B)
F1度量: F1 = 2*P*R/(P+R) = 2*TP/(樣例總數(shù)+TP-TN)
F_β:F1度量的一般形式,表達(dá)對(duì)P和R的不同偏好 F_β = (1+β2)*P*R/(β2*P)+R, 其中 β>0
β<1: 查準(zhǔn)率影響大;β=1: 與F1相同;β>1: 查全率影響大

宏查準(zhǔn)率/宏查全率/宏F1 (macro-XX): 先計(jì)算出各混淆矩陣對(duì)應(yīng)的P,R,再平均
微查準(zhǔn)率/微查全率/微F1 (micro-XX):先對(duì)混淆矩陣各元素平均,再公式計(jì)算P R F1

ROC (Receiver Operating Characteristics) 曲線:縱軸 真正例率 TPR = TP/(TP+FN); 橫軸 假正例率 FPR = FP/(TN+FP)
AUC (Area Under ROC Curve): ROC曲線下的面積

非均等代價(jià) (unequal cost):權(quán)衡不同類型錯(cuò)誤造成的不同損失
以二分類任務(wù)為例,代價(jià)矩陣為:


在非均等代價(jià)下,ROC曲線不能直接反應(yīng)出期望的總體代價(jià),需要代價(jià)曲線
橫軸為[0,1]的正例概率代價(jià) (p為樣例為正的概率)

縱軸為[0,1]的歸一化代價(jià)

ROC上每一點(diǎn) 計(jì)算FNR 繪制(0, FPR) - (1,FNR)的線段 取所有線段的下屆 圍成的面積即為學(xué)習(xí)器的期望總體代價(jià)


Motivation:希望比較不同學(xué)習(xí)器的泛化性能

  • 測(cè)試集性能≠泛化性能
  • 測(cè)試性能 與 測(cè)試集本身 相關(guān)性大
  • 機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性

So we propose:
統(tǒng)計(jì)假設(shè)檢驗(yàn):基于假設(shè)檢驗(yàn)結(jié)果,若測(cè)試集上 A 優(yōu)于 B, 則A的泛化性能是否在統(tǒng)計(jì)意義上優(yōu)于B, 及這個(gè)結(jié)論的把握有多大。
假設(shè):對(duì)學(xué)習(xí)器 泛化錯(cuò)誤率(性能)分布的某種判斷與猜想

假設(shè)檢驗(yàn)

偏差(bias):期望輸出與真實(shí)標(biāo)記的差別 --- 學(xué)習(xí)算法本身的擬合能力
方差:同樣大小訓(xùn)練集的變動(dòng)導(dǎo)致的學(xué)習(xí)性能變化 --- 數(shù)據(jù)擾動(dòng)影響
噪聲:能達(dá)到的期望泛化誤差的下屆 --- 學(xué)習(xí)問(wèn)題本身的難度

泛化誤差可分解為 偏差、方差與噪聲之和
由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性、學(xué)習(xí)任務(wù)本身的難度 共同決定

偏差-方差窘境(bias-variance dilemma):

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 作者:hooly微信公眾號(hào):一口袋星光 目錄: 1.說(shuō)明;2.概念;3.bias-variance trade-o...
    hooly閱讀 5,757評(píng)論 0 5
  • 1. 經(jīng)驗(yàn)誤差與過(guò)擬合 錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例 例如:m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤,則錯(cuò)誤率為 ...
    geekspeng閱讀 2,965評(píng)論 0 3
  • 2.1 經(jīng)驗(yàn)誤差與過(guò)擬合 錯(cuò)誤率:分類錯(cuò)誤樣本數(shù)/總樣本數(shù) 精度:1-錯(cuò)誤率 訓(xùn)練集上的誤差稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差...
    AJI米閱讀 474評(píng)論 0 0
  • 簡(jiǎn)介 此章節(jié)介紹了對(duì)模型的評(píng)估方法,以及對(duì)兩個(gè)或多個(gè)模型進(jìn)行比較的方法。 概念 錯(cuò)誤率(error rate):如...
    mulanfly閱讀 3,321評(píng)論 0 2
  • 這兩天,“主動(dòng)”這個(gè)詞時(shí)不時(shí)就會(huì)出現(xiàn)在腦海中,原因很簡(jiǎn)單,對(duì)有些工作不滿意。 工作不滿意的原因也有,部門連續(xù)離職兩...
    皮皮老貓閱讀 133評(píng)論 0 4