性能度量
對模型泛化能力的評價標準就是性能度量,在預測任務中,要評估學習器的性能,就是要把學習器預測結果與真實標記進行比較。
回歸任務最常用的性能度量是均方誤差(公式略),本節下面主要介紹分類任務中常用的性能度量。
錯誤率與精度
錯誤率是分類錯誤的樣本占樣本總數的比例,精度則是分類正確的樣本數占樣本總數的比例。
查準率、查全率與F1
一般來說,查準率高時,查全率往往偏低,而查全率高時,查準率往往偏低。在很多情形下,我們可根據學習器的預測結果對樣本進行排序,排在前面的是學習器認為最可能是正例的樣本,按此順序逐個將樣本作為正例進行預測,則每次可以計算出當前的查全率和查準率,以查準率為縱軸、查全率為橫軸作圖就得到了“P-R曲線”,如下圖所示:
在進行比較時,若一個學習器的P-R曲線被另一個曲線包住,則可斷言后者的性能優于前者。若曲線發生交叉時,比較合理的判據是比較P-R曲線下面積大小,但這個值不易估算,因此出現了平衡點(Break-Event Point,檢查BEP),即時的取值。
但BEP還是過于簡化了些,更常用的是F1度量:
在一些應用中,對查準率和查全率的重視程度不同,此時可用的一般形式——
,它定義為:
當時退化為標準的
;
時查全率有更大的影響,
時查準率有更大的影響。
ROC和AUC
很多學習器視為測試樣本產生一個實值或概率預測,然后將這個預測值與一個分類與之進行比較,若大于閾值則分為正類,否則為反類。ROC全稱是“受試者工作特征曲線”,與P-R曲線類似,它是將學習器的預測結果對樣例進行排序,按此順序逐個把樣本作為正例預測,每次計算出兩個重要量的值,分別以他們為橫縱軸作圖就得到了ROC曲線,其中,其縱軸是“真正例率(TPR)”,橫軸是“假正例率(FPR)”,即:
如下圖所示:
同樣的,若一個學習器的ROC曲線被另一個完全包住,則可斷言后者的性能優于前者,若發生交叉,則較為合理的判據是比較ROC曲線下的面積,即AUC(Area Under ROC Curve)
代價敏感錯誤率和代價曲線
為權衡不同類型錯誤所造成的不同損失,可為錯誤賦予“非均等代價”,在非均等代價下,我們所希望的是最小化“總體代價”,且ROC曲線不能直接反映出學習器的期望總體代價,而代價曲線可以,如下圖所示:
emmmmmm,公式略,想看的可以去翻書.......