本文結構:
- 什么是 ROC?
- 怎么解讀 ROC 曲線?
- 如何畫 ROC 曲線?
- 代碼?
- 什么是 AUC?
- 代碼?
ROC 曲線和 AUC 常被用來評價一個二值分類器的優劣。
先來看一下混淆矩陣中的各個元素,在后面會用到:
1. ROC :
縱軸為 TPR 真正例率,預測為正且實際為正的樣本占所有正例樣本的比例。
橫軸為 FPR 假正例率,預測為正但實際為負的樣本占所有負例樣本的比例。
對角線對應的是 “隨機猜想”
當一個學習器的 ROC 曲線被另一個學習器的包住,那么后者性能優于前者。
有交叉時,需要用 AUC 進行比較。
2. 先看圖中的四個點和對角線:
- 第一個點,(0,1),即 FPR=0, TPR=1,這意味著 FN(false negative)=0,并且FP(false positive)=0。這意味著分類器很完美,因為它將所有的樣本都正確分類。
- 第二個點,(1,0),即 FPR=1,TPR=0,這個分類器是最糟糕的,因為它成功避開了所有的正確答案。
- 第三個點,(0,0),即 FPR=TPR=0,即 FP(false positive)=TP(true positive)=0,此時分類器將所有的樣本都預測為負樣本(negative)。
- 第四個點(1,1),分類器將所有的樣本都預測為正樣本。
- 對角線上的點表示分類器將一半的樣本猜測為正樣本,另外一半的樣本猜測為負樣本。
因此,ROC 曲線越接近左上角,分類器的性能越好。
3. 如何畫 ROC 曲線
例如有如下 20 個樣本數據,Class 為真實分類,Score 為分類器預測此樣本為正例的概率。
- 按 Score 從大到小排列
- 依次將每個 Score 設定為閾值,然后這 20 個樣本的標簽會變化,當它的 score 大于或等于當前閾值時,則為正樣本,否則為負樣本。
- 這樣對每個閾值,可以計算一組 FPR 和 TPR,此例一共可以得到 20 組。
- 當閾值設置為 1 和 0 時, 可以得到 ROC 曲線上的 (0,0) 和 (1,1) 兩個點。
4. 代碼:
輸入 y 的真實標簽,還有 score,設定標簽為 2 時是正例:
y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
就會得到相應的 TPR, FPR, 截斷點 :
fpr = array([ 0. , 0.5, 0.5, 1. ])
tpr = array([ 0.5, 0.5, 1. , 1. ])
thresholds = array([ 0.8 , 0.4 , 0.35, 0.1 ])#截斷點
5. AUC:
是 ROC 曲線下的面積,它是一個數值,當僅僅看 ROC 曲線分辨不出哪個分類器的效果更好時,用這個數值來判斷。
The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.
從上面定義可知,意思是隨機挑選一個正樣本和一個負樣本,當前分類算法得到的 Score 將這個正樣本排在負樣本前面的概率就是 AUC 值。AUC 值是一個概率值,AUC 值越大,分類算法越好。
6. 代碼:
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
roc_auc_score(y_true, y_scores)
0.75
學習資料:
《機器學習》,周志華
http://alexkong.net/2013/06/introduction-to-auc-and-roc/
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html
推薦閱讀 歷史技術博文鏈接匯總
http://www.lxweimin.com/p/28f02bb59fe5
也許可以找到你想要的:
[入門問題][TensorFlow][深度學習][強化學習][神經網絡][機器學習][自然語言處理][聊天機器人]