Evaluation of Classifier
1. 準確率(accuracy)
并不適用于所有場景,例如:樣本不均衡場景(正樣本占90%,負樣本占10%)。
舉例:昨天有1000個人來我們醫(yī)院做了一個檢查,檢查完發(fā)現(xiàn)只有5個人得了肺癌,則剩下的995個人是正常的。所以在這種情況下,我的模型不去學習任何事情,就可以判斷任何新樣本就是正常人,此時算法就是99.5%的準確率。這是沒有任何價值的一個算法,需要找到一個新的評估方法。
2. 精確率、召回率、F1-score
Correct(正樣本)10
|
Not Correct(負樣本)990
|
|
---|---|---|
Selected10
|
TP8
|
FP2
|
Not Selected990
|
FN2
|
TN988
|
精確率:# of selected items that are correct 正樣本: 8/10=80%=TP/(TP+FP)
召回率:# of correct items that are selected 正樣本: 8/10=80%=TP/(TP+FN)
例一:
Ground Truth:N N N T T N N N N T=>真實
分類算法1:???N N T T N N N N N T=>預測
正樣本:P = 2 / 3; R = 2 / 3 ;例二:
Ground Truth:N N N T T N N N N T=>真實
分類算法1:???N T T T T N N T N T=>預測
正樣本:P = 3 / 6 = 1 / 2; R = 3 / 3 = 1;
結論:精確率與召回率是互斥的。
3. 如何把評估標準合并成一個公式
例一:
P = 40%;R = 40%
例二:
P = 75%;R = 25%
4. 如何計算整個樣本的精確率、召回率、F1-Score
正樣本 | |||
負樣本 | |||
整體樣本 |
假設多分類時:把每個分類的精確率和召回率計算完,再計算F1-Score即可。每個分類求平均。
6. 示例
正常郵件和垃圾郵件分類結果
結果分析:
對于正常郵件 | |||
對于垃圾郵件 | |||
對于所有郵件 |