一、ROC曲線、AUC、Precision、Recall以及F-measure
二分類問(wèn)題的預(yù)測(cè)結(jié)果可能正確,也可能不正確。結(jié)果正確存在兩種可能:原本對(duì)的預(yù)測(cè)為對(duì),原本錯(cuò)的預(yù)測(cè)為錯(cuò);結(jié)果錯(cuò)誤也存在兩種可能:原本對(duì)的預(yù)測(cè)為錯(cuò),原本錯(cuò)的預(yù)測(cè)為對(duì),如Fig 1左側(cè)所示。其中Positives代表預(yù)測(cè)是對(duì)的,Negatives代表預(yù)測(cè)是錯(cuò)的,True代表原本為對(duì),F(xiàn)alse代表原本為錯(cuò)。如何評(píng)價(jià)兩個(gè)二分類模型的好壞呢?二分類模型的理想狀態(tài)是什么呢?
首先回答第二個(gè)問(wèn)題,理想的二分類模型能將原本是對(duì)的預(yù)測(cè)為對(duì),原本是錯(cuò)的預(yù)測(cè)為錯(cuò)。一般情況下,我們很難收集到完備的“原本是對(duì)的,原本是錯(cuò)的”數(shù)據(jù)集,也就是說(shuō),通常情況下我們獲得是完備的“原本是對(duì)的,原本是錯(cuò)的”數(shù)據(jù)集的一個(gè)子集。因此,評(píng)價(jià)二分類模型的優(yōu)劣就是在該子集上進(jìn)行的。我們希望在該子集上對(duì)二分類模型的評(píng)價(jià)是無(wú)偏的,也就是說(shuō),在概率上保證在該子集上對(duì)二分類模型的評(píng)價(jià)與在完備集上的評(píng)價(jià)一致。
針對(duì)第一個(gè)問(wèn)題,其實(shí)很簡(jiǎn)單,數(shù)數(shù)就行了。數(shù)數(shù)原本是對(duì)的預(yù)測(cè)為對(duì)的個(gè)數(shù),原本是錯(cuò)的預(yù)測(cè)為錯(cuò)的個(gè)數(shù),原本是對(duì)的預(yù)測(cè)為錯(cuò)的比例,原本是錯(cuò)的預(yù)測(cè)為對(duì)的比例(評(píng)價(jià)二分類問(wèn)題的四個(gè)基本元素,后續(xù)評(píng)價(jià)指標(biāo)都是在此基礎(chǔ)上做出的)。評(píng)價(jià)一個(gè)模型的好壞用四個(gè)參數(shù)是不是有點(diǎn)不太直觀哦,要是只有一個(gè)評(píng)價(jià)指標(biāo),如果一個(gè)模型的這指標(biāo)比別的模型大,那這個(gè)模型就比別的模型好(或者反過(guò)來(lái),一個(gè)模型的這指標(biāo)比別的模型小,那這個(gè)模型比別的模型好),該多好哦!哈哈!
precision的含義是:預(yù)測(cè)為對(duì)的當(dāng)中,原本為對(duì)的比例(越大越好,1為理想狀態(tài))
recall的含義是:原本為對(duì)的當(dāng)中,預(yù)測(cè)為對(duì)的比例(越大越好,1為理想狀態(tài))
F-measure的含義是:用precision和recall兩個(gè)指標(biāo)不直觀(任性),索性把他們合并為一個(gè),這就是F-measure(越大越好,1為理想狀態(tài),此時(shí)precision為1,recall為1)
accuracy的含義是:預(yù)測(cè)對(duì)的(包括原本是對(duì)預(yù)測(cè)為對(duì),原本是錯(cuò)的預(yù)測(cè)為錯(cuò)兩種情形)占整個(gè)的比例(越大越好,1為理想狀態(tài))
fp rate的含義是:原本是錯(cuò)的預(yù)測(cè)為對(duì)的比例(越小越好,0為理想狀態(tài))
tp rate的含義是:原本是對(duì)的預(yù)測(cè)為對(duì)的比例(越大越好,1為理想狀態(tài))
ROC曲線的含義是:得到算法的一組(fp rate, tp rate)然后做出的曲線(沒辦法用大小來(lái)衡量,不開心,因此有了AUC),如Fig 2所示
AUC的含義:ROC曲線下的面積(越大越好,1為理想狀態(tài))
Fig 2 ROC曲線示意圖
二、上述評(píng)價(jià)評(píng)價(jià)指標(biāo)的有趣特性
1) 實(shí)際中應(yīng)用測(cè)試數(shù)據(jù)集可能存在以下三種情況之一:原本是對(duì)的與原本是錯(cuò)的比例一致,原本是對(duì)的所占比例較小,原本是對(duì)的所占比例較大。在上述三種情況下,由于(fp rate, tp rate)基本保持不變,因此ROC曲線、AUC在一定程度上具備對(duì)數(shù)據(jù)集正負(fù)樣本比例的不變性。
2) 如果單純蒙的話會(huì)是什么結(jié)果呢(假設(shè)原本是對(duì)的預(yù)測(cè)為對(duì)的比例,原本是錯(cuò)的預(yù)測(cè)為錯(cuò)的比例,原本是對(duì)的預(yù)測(cè)為錯(cuò)的比例,原本是錯(cuò)的預(yù)測(cè)為對(duì)的比例都為0.5,其實(shí)也就 是蒙的直接結(jié)果了)?此時(shí),precision、recall以及綜合兩者的F-measure值不能作為判斷模型好壞的標(biāo)準(zhǔn)(因?yàn)樵臼清e(cuò)的數(shù)量不確定,考慮原本是對(duì)的數(shù)據(jù)只有1,原本是 錯(cuò)的數(shù)據(jù)有10000這種極端情況根據(jù)他們的定義即可得知precision近似為0,正負(fù)樣本比例一致則precision約為0.5),也就是說(shuō)上述三個(gè)指標(biāo)受數(shù)據(jù)集正負(fù)樣本比例影響。
3) (fp rate, tp rate)是如何獲得呢?對(duì)于一個(gè)數(shù)據(jù)集應(yīng)該只有一組(fp rate, tp rate)吧!這里面涉及到一個(gè)問(wèn)題,就是二分類模型的輸出通常是輸入為對(duì)的概率,如果我 們認(rèn)為概率大于T的為對(duì),那么如果T不同則(fp rate, tp rate)不同,因此我們獲得了一組(fp rate, tp rate)。