ROC and AUC分類器原理

前言

ROC和AUC,作為一個重要的分類器的評價指標(biāo),起初是為了增進軍事雷達(dá)的敵我偵測能力而發(fā)展的。舉例而言:雷達(dá)接收的無線電波可能只是噪聲,也可能是噪聲加上真正的電磁波,如果把噪聲判為敵機,或把敵機 噪聲加上真正的電磁波,因此選擇一個合理的指標(biāo)做為判斷標(biāo)準(zhǔn),顯然是十分重要的。

分類模型(又稱分類器)是將一個實例映射到一個特定類的過程。ROC分析的是二元分類模型,也就是輸出結(jié)果只有兩種類別的模型,例如:(陽性/陰性)(有?。瘺]?。ɡ]件/非垃圾郵件)(敵軍/非敵軍)。

當(dāng)訊號偵測(或變數(shù)測量)的結(jié)果是一個連續(xù)值時,類與類的邊界必須用一個閾值(threshold)來界定。舉例來說,用血壓值來檢測一個人是否有高血壓,測出的血壓值是連續(xù)的實數(shù)(從0~200都有可能),以收縮壓140/舒張壓90為閾值,閾值以上便診斷為有高血壓,閾值未滿者診斷為無高血壓。二元分類模型的個案預(yù)測有四種結(jié)局:

真陽性(TP):診斷為有,實際上也有高血壓。
偽陽性(FP):診斷為有,實際卻沒有高血壓。
真陰性(TN):診斷為沒有,實際上也沒有高血壓。
偽陰性(FN):診斷為沒有,實際卻有高血壓。

然后我們根據(jù)預(yù)測結(jié)果可以得到混淆矩陣(Confusion Matrix)

00

閾值選擇

假設(shè)我們已經(jīng)有了一條擬合好的回歸曲線,x軸表示小鼠的體中,y軸表示小鼠肥胖的概率

01

現(xiàn)在需要使用肥胖和不肥胖兩種形式表示預(yù)測結(jié)果,我們可以將肥胖與否的閾值選擇為0.5

02

如果有另外8個樣本來(紅色點表示非肥胖樣本,藍(lán)色點表示肥胖樣本)驗證模型

03

那么我們可以用Confusion Matrix來表示驗證結(jié)果

04

如果將閾值降為0.1

05

Confusion Matrix變?yōu)?/p>

06

可以看出降低閾值后導(dǎo)致True Positive和False Positive增加,True Negative和False Negative降低

如果將閾值提高至0.9,預(yù)測結(jié)果又有變化

07

根據(jù)目前的三個選擇,似乎較高的閾值(0.9)對于預(yù)測肥胖與否的效果會好些。那么是否還有更好的選擇呢?

ROC

對某個分類器而言,將預(yù)測每一個樣本為True Positive的概率輸出,并且從小到大排序(或從大到小),依次將概率值作為閾值計算Sensitivity1-Specificity的值從而得到二維平面上的一個點。

調(diào)整這個分類器分類的時候使用的閾值,然后將所有點連接在一起,就可以得到ROC(Receiver Operating Characteristic)曲線。

08

ROC曲線的x軸為預(yù)測結(jié)果為假陽性的比例,y軸為預(yù)測結(jié)果為真陽性的比例

靈敏性Sensitivity=(True Positives)/(True Positives+False Nagetives)

特異性Specificity=(True Negatives)/(True Negatives+False Positives)

ROC曲線會經(jīng)過(0,0)和(1,1)兩點

在之前小鼠肥胖分類的案例中,如果我們將分類閾值設(shè)為0(此時所有樣本被判定為肥胖)

09

那么對應(yīng)的Confusion Matrix為

10

所以其Sensitivity1-Specificity的值均為1

11

然后我們選擇最輕樣本對應(yīng)的肥胖概率作為閾值(此時其余樣本被分類器判定為肥胖,而該樣本被判定為非肥胖)

13

Sensitivity1-Specificity的值均為0.75和1

13

(0.75,1)這個點朝左邊偏移,表示假陽性的預(yù)測概率降低,說明這個閾值比剛才那個0好

接下來我們分別選擇倒數(shù)第二輕樣本對應(yīng)的肥胖概率作為閾值,倒數(shù)第三輕樣本對應(yīng)的肥胖概率,倒數(shù)第四……最后閾值為1時,Sensitivity1-Specificity的值均變?yōu)?。

將所有的點連接在一起,就獲得了ROC曲線。

14

在ROC曲線上,最靠近坐標(biāo)圖左上方的點為敏感性和特異性均較高的臨界值,如在這個案例中,如果對假陽性要求比較高的話,可以選擇左邊箭頭點對應(yīng)的閾值;如果愿意忍受一定的假陽性,希望提高真陽性的話,可以選擇右側(cè)箭頭點對應(yīng)的閾值。

AUC

AUC(Area Under Curve),即ROC曲線下的面積。

ROC可以為分類器選擇一個較好的分類閾值,而AUC可以表不同分類器的效能。AUC數(shù)值(面積)可以直觀的評價分類器的好壞,值越大越好,如下圖的對于兩個分類器,我們通常會選擇紅色曲線對應(yīng)的分類器。

15

Precision

上面所講ROC的橫軸為假陽性比例,但有時也可以用精確度(Precision)來表示。

精確性Precision=(True Positives)/(True Positives+False Positives)

如果非肥胖樣本數(shù)目遠(yuǎn)超肥胖樣本的話,那么精確性會比假陽性更適用一些,因為精確性的計算公式中不包含True Negatives,不會被這種不均衡性所影響。

16

Reference

https://www.youtube.com/watch?v=AJN2yl004-4&feature=youtu.be

http://www.labmed.cn/uploadfile/2015/0808/20150808063958641.pdf

https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF

http://www.lxweimin.com/p/091e5dc7f1f3

https://blog.csdn.net/u013385925/article/details/80385873

申明

本文是根據(jù)StatQuest系列視頻整理而來
已獲得Josh Starmer授權(quán)說明
感謝久久瓊殷不辭辛苦將視頻轉(zhuǎn)載至B站

Permmsion

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,836評論 6 540
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,275評論 3 428
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 177,904評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,633評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 72,368評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,736評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,740評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,919評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,481評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,235評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,427評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,968評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,656評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,055評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,348評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,160評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,380評論 2 379

推薦閱讀更多精彩內(nèi)容