Precision,Recall,F1-score
首先介紹precision,recall,f1-score三個概念。
對于二值分類器(positive與negative),用下圖表示classifying的結果以及以上三個指標的計算公式。
ROC曲線,AUC
一般二值分類器的輸出是對每個測試樣本是正向分類positive的概率,在判別正負時會選定一個臨界值,低于這個值的樣本都是負樣本,高于這個值的樣本都是正樣本,再與樣本的實際屬性,也就是標簽做對比計算,得出真陽性率TPR(True Positive Rate)和偽陽性率FPR(False Positive Rate)
TPR = TP/(TP+FN)
FPR = FP/(FP+TN)
如果有N個樣本,按照模型輸出的概率排序,那我們最多能得到N組TPR,FPR的數據,就能繪出ROC曲線。
樣本越多,ROC曲線就會越光滑。
AUC即是ROC的曲線積分,即多邊形的面積。
一般來說AUC值在0.5到1之間,越接近1,說明模型越好;
ROC曲線越接近上圖的紅線,說明模型越沒效果(跟隨機瞎猜很相近);
ROC在紅線下面,就應該檢查是不是標簽貼反了,或者是模型真的很差。