前言
ROC和AUC,作為一個重要的分類器的評價指標(biāo),起初是為了增進軍事雷達(dá)的敵我偵測能力而發(fā)展的。舉例而言:雷達(dá)接收的無線電波可能只是噪聲,也可能是噪聲加上真正的電磁波,如果把噪聲判為敵機,或把敵機 噪聲加上真正的電磁波,因此選擇一個合理的指標(biāo)做為判斷標(biāo)準(zhǔn),顯然是十分重要的。
分類模型(又稱分類器)是將一個實例映射到一個特定類的過程。ROC分析的是二元分類模型,也就是輸出結(jié)果只有兩種類別的模型,例如:(陽性/陰性)(有?。瘺]?。ɡ]件/非垃圾郵件)(敵軍/非敵軍)。
當(dāng)訊號偵測(或變數(shù)測量)的結(jié)果是一個連續(xù)值時,類與類的邊界必須用一個閾值(threshold)來界定。舉例來說,用血壓值來檢測一個人是否有高血壓,測出的血壓值是連續(xù)的實數(shù)(從0~200都有可能),以收縮壓140/舒張壓90為閾值,閾值以上便診斷為有高血壓,閾值未滿者診斷為無高血壓。二元分類模型的個案預(yù)測有四種結(jié)局:
真陽性(TP):診斷為有,實際上也有高血壓。
偽陽性(FP):診斷為有,實際卻沒有高血壓。
真陰性(TN):診斷為沒有,實際上也沒有高血壓。
偽陰性(FN):診斷為沒有,實際卻有高血壓。
然后我們根據(jù)預(yù)測結(jié)果可以得到混淆矩陣(Confusion Matrix)
閾值選擇
假設(shè)我們已經(jīng)有了一條擬合好的回歸曲線,x軸表示小鼠的體中,y軸表示小鼠肥胖的概率
現(xiàn)在需要使用肥胖和不肥胖兩種形式表示預(yù)測結(jié)果,我們可以將肥胖與否的閾值選擇為0.5
如果有另外8個樣本來(紅色點表示非肥胖樣本,藍(lán)色點表示肥胖樣本)驗證模型
那么我們可以用Confusion Matrix來表示驗證結(jié)果
如果將閾值降為0.1
Confusion Matrix變?yōu)?/p>
可以看出降低閾值后導(dǎo)致True Positive和False Positive增加,True Negative和False Negative降低
如果將閾值提高至0.9,預(yù)測結(jié)果又有變化
根據(jù)目前的三個選擇,似乎較高的閾值(0.9)對于預(yù)測肥胖與否的效果會好些。那么是否還有更好的選擇呢?
ROC
對某個分類器而言,將預(yù)測每一個樣本為True Positive的概率輸出,并且從小到大排序(或從大到小),依次將概率值作為閾值計算Sensitivity
和1-Specificity
的值從而得到二維平面上的一個點。
調(diào)整這個分類器分類的時候使用的閾值,然后將所有點連接在一起,就可以得到ROC(Receiver Operating Characteristic)曲線。
ROC曲線的x軸為預(yù)測結(jié)果為假陽性的比例,y軸為預(yù)測結(jié)果為真陽性的比例
靈敏性
特異性
ROC曲線會經(jīng)過(0,0)和(1,1)兩點
在之前小鼠肥胖分類的案例中,如果我們將分類閾值設(shè)為0(此時所有樣本被判定為肥胖)
那么對應(yīng)的Confusion Matrix為
所以其Sensitivity
和1-Specificity
的值均為1
然后我們選擇最輕樣本對應(yīng)的肥胖概率作為閾值(此時其余樣本被分類器判定為肥胖,而該樣本被判定為非肥胖)
其Sensitivity
和1-Specificity
的值均為0.75和1
(0.75,1)這個點朝左邊偏移,表示假陽性的預(yù)測概率降低,說明這個閾值比剛才那個0好
接下來我們分別選擇倒數(shù)第二輕樣本對應(yīng)的肥胖概率作為閾值,倒數(shù)第三輕樣本對應(yīng)的肥胖概率,倒數(shù)第四……最后閾值為1時,Sensitivity
和1-Specificity
的值均變?yōu)?。
將所有的點連接在一起,就獲得了ROC曲線。
在ROC曲線上,最靠近坐標(biāo)圖左上方的點為敏感性和特異性均較高的臨界值,如在這個案例中,如果對假陽性要求比較高的話,可以選擇左邊箭頭點對應(yīng)的閾值;如果愿意忍受一定的假陽性,希望提高真陽性的話,可以選擇右側(cè)箭頭點對應(yīng)的閾值。
AUC
AUC(Area Under Curve),即ROC曲線下的面積。
ROC可以為分類器選擇一個較好的分類閾值,而AUC可以表不同分類器的效能。AUC數(shù)值(面積)可以直觀的評價分類器的好壞,值越大越好,如下圖的對于兩個分類器,我們通常會選擇紅色曲線對應(yīng)的分類器。
Precision
上面所講ROC的橫軸為假陽性比例,但有時也可以用精確度(Precision)來表示。
精確性
如果非肥胖樣本數(shù)目遠(yuǎn)超肥胖樣本的話,那么精確性會比假陽性更適用一些,因為精確性的計算公式中不包含True Negatives,不會被這種不均衡性所影響。
Reference
https://www.youtube.com/watch?v=AJN2yl004-4&feature=youtu.be
http://www.labmed.cn/uploadfile/2015/0808/20150808063958641.pdf
https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
http://www.lxweimin.com/p/091e5dc7f1f3
https://blog.csdn.net/u013385925/article/details/80385873
申明
本文是根據(jù)StatQuest系列視頻整理而來
已獲得Josh Starmer授權(quán)說明
感謝久久瓊殷不辭辛苦將視頻轉(zhuǎn)載至B站