從宏觀上了解機器學習-模型評估與選擇2

性能度量

對模型泛化能力的評價標準就是性能度量,在預測任務中,要評估學習器的性能,就是要把學習器預測結果與真實標記進行比較。

回歸任務最常用的性能度量是均方誤差(公式略),本節下面主要介紹分類任務中常用的性能度量。

錯誤率與精度

錯誤率是分類錯誤的樣本占樣本總數的比例,精度則是分類正確的樣本數占樣本總數的比例。

查準率、查全率與F1

WX20201105-141924.png

一般來說,查準率高時,查全率往往偏低,而查全率高時,查準率往往偏低。在很多情形下,我們可根據學習器的預測結果對樣本進行排序,排在前面的是學習器認為最可能是正例的樣本,按此順序逐個將樣本作為正例進行預測,則每次可以計算出當前的查全率和查準率,以查準率為縱軸、查全率為橫軸作圖就得到了“P-R曲線”,如下圖所示:

WX20201105-142717.png

在進行比較時,若一個學習器的P-R曲線被另一個曲線包住,則可斷言后者的性能優于前者。若曲線發生交叉時,比較合理的判據是比較P-R曲線下面積大小,但這個值不易估算,因此出現了平衡點(Break-Event Point,檢查BEP),即P=R時的取值。

但BEP還是過于簡化了些,更常用的是F1度量:

F1=\frac{2*P*R}{P+R}=\frac{2*TP}{ m+TP-TN}

在一些應用中,對查準率和查全率的重視程度不同,此時可用F1的一般形式——F_\beta,它定義為:

F_\beta = \frac {(1+\beta^2) * P * R}{(\beta^2*P)+R}

\beta=1時退化為標準的F1;\beta >1時查全率有更大的影響,\beta <1時查準率有更大的影響。

ROC和AUC

很多學習器視為測試樣本產生一個實值或概率預測,然后將這個預測值與一個分類與之進行比較,若大于閾值則分為正類,否則為反類。ROC全稱是“受試者工作特征曲線”,與P-R曲線類似,它是將學習器的預測結果對樣例進行排序,按此順序逐個把樣本作為正例預測,每次計算出兩個重要量的值,分別以他們為橫縱軸作圖就得到了ROC曲線,其中,其縱軸是“真正例率(TPR)”,橫軸是“假正例率(FPR)”,即:

TPR=\frac{TP}{TP+FN}\\FPR=\frac{FP}{TN+FP}

如下圖所示:

WX20201105-145223.png

同樣的,若一個學習器的ROC曲線被另一個完全包住,則可斷言后者的性能優于前者,若發生交叉,則較為合理的判據是比較ROC曲線下的面積,即AUC(Area Under ROC Curve)

代價敏感錯誤率和代價曲線

為權衡不同類型錯誤所造成的不同損失,可為錯誤賦予“非均等代價”,在非均等代價下,我們所希望的是最小化“總體代價”,且ROC曲線不能直接反映出學習器的期望總體代價,而代價曲線可以,如下圖所示:

WX20201105-150020.png

emmmmmm,公式略,想看的可以去翻書.......

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。