ROC,AUC,Precision,Recall,F1的介紹與計算

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書

1. 基本概念

1.1 ROC與AUC

ROC曲線和AUC常被用來評價一個二值分類器(binary classifier)的優劣,ROC曲線稱為受試者工作特征曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve),AUC(Area Under Curve)是ROC曲線下的面積。在計算ROC曲線之前,首先要了解一些基本概念。在二元分類模型的預測結果有四種,以判斷人是否有病為例:

  • 真陽性(TP):診斷為有,實際上也有病。
  • 偽陽性(FP):診斷為有,實際卻沒有病。
  • 真陰性(TN):診斷為沒有,實際上也沒有病。
  • 偽陰性(FN):診斷為沒有,實際卻有病。

其關系如下圖所示:

TP、FP、TN、FN

ROC空間將偽陽性率(FPR)定義為X軸,真陽性率(TPR)定義為Y軸。TPR:在所有實際為陽性的樣本中,被正確地判斷為陽性之比率,TPR=\frac {TP} {TP+FN} 。FPR:在所有實際為陰性的樣本中,被錯誤地判斷為陽性之比率,FPR=\frac {FP} {FP+TN}

1.2 Precision、Recall與F1

對于二分類問題另一個常用的評價指標是精確率(precision)與召回率(recall)以及F1值。精確率表示在預測為陽性的樣本中,真正有陽性的樣本所占的比例。精確率的定義為P=\frac {TP} {TP+FP}。召回率表示所有真正呈陽性的樣本中,預測為陽性所占的比例。召回率的定義為R=\frac {TP} {TP+FN},F1值是精確率和召回率的調和均值,公式為F1=\frac {2PR} {P+R}。精確率和召回率都高時,F1值也會高。通常情況下,Precision與Recall是相互矛盾的。

2. 曲線介紹

2.1 ROC曲線

ROC曲線坐標系如下圖所示,虛線為隨機猜測的概率,即猜對跟猜錯的概率是一樣的。理想情況下,我們是希望FPR為0,沒有一個假陽性,TPR為1,即全為真陽性,此時所有樣本都被正確分類,點位于左上角(0,1)位置處,沒有一個分錯的數據,這是最完美的情況,實際情況中基本不可能。如果點位于虛線下方,例如C點,說明分類錯誤的多,分類正確的少,此時不是我們想要的。如果點位于虛線上方,例如C \prime點,說明分類錯誤的少,分類正確的多,此時是我們想要的,因此我們希望ROC曲線盡可能的靠近左上角。對于一個特定的分類器和測試數據集,只能得到一個分類結果,即ROC曲線坐標系中的一點,那么如何得到一條ROC曲線呢?分類問題中我們經常會得到某個樣本是正樣本的概率,根據概率值與閾值的比較來判斷某個樣本是否是正樣本。在不同的閾值下可以得到不同的TPR和FPR值,即可以得到一系列的點,將它們在圖中繪制出來,并依次連接起來就得到了ROC曲線,閾值取值越多,ROC曲線越平滑。

AUC為ROC曲線下的面積,它的面積不會大于1,由于ROC曲線一般都處于直線y=x的上方,因此AUC的取值范圍通常在(0.5,1)之間。由于ROC曲線不能很好的看出分類器模型的好壞,因此采用AUC值來進行分類器模型的評估與比較。通常AUC值越大,分類器性能越好。

ROC曲線

在基本概念中我們提到了精確率、召回率以及F1值,既然有它們作為二分類的評價指標,為什么還要使用ROC和AUC呢?這是因為ROC曲線有個很好的特性:當測試集中的正負樣本分布發生變化時,即正負樣本數量相差較大時,ROC曲線仍能保持不變。實際數據集中經常會出現樣本數量不平衡現象,并且測試數據中的正負樣本的分布也可能隨著時間發生變化。下圖是兩個分類器模型(算法)的ROC曲線比較圖:

ROC曲線比較

2.2 P-R曲線

在P-R曲線中,Recall為橫坐標,Precision為縱坐標。在ROC曲線中曲線越凸向左上角約好,在P-R曲線中,曲線越凸向右上角越好。P-R曲線判斷模型的好壞要根據具體情況具體分析,有的項目要求召回率較高、有的項目要求精確率較高。P-R曲線的繪制跟ROC曲線的繪制是一樣的,在不同的閾值下得到不同的Precision、Recall,得到一系列的點,將它們在P-R圖中繪制出來,并依次連接起來就得到了P-R圖。兩個分類器模型(算法)P-R曲線比較的一個例子如下圖所示:

P-R曲線比較

2.3 ROC與P-R對比

從公式計算中可以看出,ROC曲線中真陽性率TPR的計算公式與P-R曲線中的召回率Recall計算公式是一樣的,即二者是同一個東西在不同環境下的不同叫法。當正負樣本差距不大的情況下,ROC曲線和P-R的趨勢是差不多的,但是當負樣本很多的時候,ROC曲線效果依然較好,但是P-R曲線效果一般。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容