第12-1節(jié) 分類 (Classification)|機(jī)器學(xué)習(xí)速成課程

文章轉(zhuǎn)載自Google,最近更新:2018-08-3

Google上線了一個(gè)“機(jī)器學(xué)習(xí)速成課程”,英文簡(jiǎn)稱MLCC。這個(gè)課程節(jié)奏緊湊、內(nèi)容實(shí)用。課程基本可以全程中文(包括視頻),免費(fèi),并且有相關(guān)的練習(xí).

如果可以翻墻的小伙伴,可以看看,鏈接如下:機(jī)器學(xué)習(xí)速成課程

具體內(nèi)容如下:

1.指定閾值

邏輯回歸返回的是概率。您可以“原樣”使用返回的概率(例如,用戶點(diǎn)擊此廣告的概率為 0.00023),也可以將返回的概率轉(zhuǎn)換成二元值(例如,這封電子郵件是垃圾郵件)。

如果某個(gè)邏輯回歸模型對(duì)某封電子郵件進(jìn)行預(yù)測(cè)時(shí)返回的概率為 0.9995,則表示該模型預(yù)測(cè)這封郵件非常可能是垃圾郵件。相反,在同一個(gè)邏輯回歸模型中預(yù)測(cè)分?jǐn)?shù)為 0.0003 的另一封電子郵件很可能不是垃圾郵件。可如果某封電子郵件的預(yù)測(cè)分?jǐn)?shù)為 0.6 呢?為了將邏輯回歸值映射到二元類別,您必須指定分類閾值(也稱為判定閾值)。如果值高于該閾值,則表示“垃圾郵件”;如果值低于該閾值,則表示“非垃圾郵件”。人們往往會(huì)認(rèn)為分類閾值應(yīng)始終為 0.5,但閾值取決于具體問題,因此您必須對(duì)其進(jìn)行調(diào)整。

我們將在后面的部分中詳細(xì)介紹可用于對(duì)分類模型的預(yù)測(cè)進(jìn)行評(píng)估的指標(biāo),以及更改分類閾值對(duì)這些預(yù)測(cè)的影響。

注意:“調(diào)整”邏輯回歸的閾值不同于調(diào)整學(xué)習(xí)速率等超參數(shù)。在選擇閾值時(shí),需要評(píng)估您將因犯錯(cuò)而承擔(dān)多大的后果。例如,將非垃圾郵件誤標(biāo)記為垃圾郵件會(huì)非常糟糕。不過,雖然將垃圾郵件誤標(biāo)記為非垃圾郵件會(huì)令人不快,但應(yīng)該不會(huì)讓您丟掉工作。

關(guān)鍵字詞

  1. 二元分類 (binary classification)
    一種分類任務(wù),可輸出兩種互斥類別之一。例如,對(duì)電子郵件進(jìn)行評(píng)估并輸出“垃圾郵件”或“非垃圾郵件”的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器。

  2. 分類模型 (classification model)
    一種機(jī)器學(xué)習(xí)模型,用于區(qū)分兩種或多種離散類別。例如,某個(gè)自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是意大利語。請(qǐng)與回歸模型進(jìn)行比較。

2.分類 (Classification):真與假以及正類別與負(fù)類別

在本部分,我們將定義用于評(píng)估分類模型的指標(biāo)的主要組成部分。不過,我們先來看一則寓言故事:

伊索寓言:狼來了(精簡(jiǎn)版)

有一位牧童要照看鎮(zhèn)上的羊群,但是他開始厭煩這份工作。為了找點(diǎn)樂子,他大喊道:“狼來了!”其實(shí)根本一頭狼也沒有出現(xiàn)。村民們迅速跑來保護(hù)羊群,但他們發(fā)現(xiàn)這個(gè)牧童是在開玩笑后非常生氣。

[這樣的情形重復(fù)出現(xiàn)了很多次。]

一天晚上,牧童看到真的有一頭狼靠近羊群,他大聲喊道:“狼來了!”村民們不想再被他捉弄,都待在家里不出來。這頭饑餓的狼對(duì)羊群大開殺戒,美美飽餐了一頓。這下子,整個(gè)鎮(zhèn)子都揭不開鍋了。恐慌也隨之而來

我們做出以下定義:

  • “狼來了”是正類別。
  • “沒有狼”是負(fù)類別。

我們可以使用一個(gè) 2x2 混淆矩陣來總結(jié)我們的“狼預(yù)測(cè)”模型,該矩陣描述了所有可能出現(xiàn)的結(jié)果(共四種):

真正例是指模型將正類別樣本正確地預(yù)測(cè)為正類別。同樣,真負(fù)例是指模型將負(fù)類別樣本正確地預(yù)測(cè)為負(fù)類別。

假正例是指模型將負(fù)類別樣本錯(cuò)誤地預(yù)測(cè)為正類別,而假負(fù)例是指模型將正類別樣本錯(cuò)誤地預(yù)測(cè)為負(fù)類別。

在后面的部分中,我們將介紹如何使用從這四種結(jié)果中衍生出的指標(biāo)來評(píng)估分類模型。

關(guān)鍵字詞

  1. 混淆矩陣 (confusion matrix)
    一種 NxN 表格,用于總結(jié)分類模型的預(yù)測(cè)成效;即標(biāo)簽和模型預(yù)測(cè)的分類之間的關(guān)聯(lián)。在混淆矩陣中,一個(gè)軸表示模型預(yù)測(cè)的標(biāo)簽,另一個(gè)軸表示實(shí)際標(biāo)簽。N 表示類別個(gè)數(shù)。在二元分類問題中,N=2。例如,下面顯示了一個(gè)二元分類問題的混淆矩陣示例:

上面的混淆矩陣顯示,在 19 個(gè)實(shí)際有腫瘤的樣本中,該模型正確地將 18 個(gè)歸類為有腫瘤(18 個(gè)真正例),錯(cuò)誤地將 1 個(gè)歸類為沒有腫瘤(1 個(gè)假負(fù)例)。同樣,在 458 個(gè)實(shí)際沒有腫瘤的樣本中,模型歸類正確的有 452 個(gè)(452 個(gè)真負(fù)例),歸類錯(cuò)誤的有 6 個(gè)(6 個(gè)假正例)。

多類別分類問題的混淆矩陣有助于確定出錯(cuò)模式。例如,某個(gè)混淆矩陣可以揭示,某個(gè)經(jīng)過訓(xùn)練以識(shí)別手寫數(shù)字的模型往往會(huì)將 4 錯(cuò)誤地預(yù)測(cè)為 9,將 7 錯(cuò)誤地預(yù)測(cè)為 1。混淆矩陣包含計(jì)算各種效果指標(biāo)(包括精確率和召回率)所需的充足信息。

  1. 負(fù)類別 (negative class)

二元分類中,一種類別稱為正類別,另一種類別稱為負(fù)類別。正類別是我們要尋找的類別,負(fù)類別則是另一種可能性。例如,在醫(yī)學(xué)檢查中,負(fù)類別可以是“非腫瘤”。在電子郵件分類器中,負(fù)類別可以是“非垃圾郵件”。另請(qǐng)參閱正類別

  1. 正類別 (positive class)

二元分類中,兩種可能的類別分別被標(biāo)記為正類別和負(fù)類別。正類別結(jié)果是我們要測(cè)試的對(duì)象。(不可否認(rèn)的是,我們會(huì)同時(shí)測(cè)試這兩種結(jié)果,但只關(guān)注正類別結(jié)果。)例如,在醫(yī)學(xué)檢查中,正類別可以是“腫瘤”。在電子郵件分類器中,正類別可以是“垃圾郵件”。與負(fù)類別相對(duì)。

  1. 真正例 (TP, true positive)

被模型正確地預(yù)測(cè)為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件,而該電子郵件確實(shí)是垃圾郵件。

  1. 真負(fù)例 (TN, true negative)

被模型正確地預(yù)測(cè)為負(fù)類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件,而該電子郵件確實(shí)不是垃圾郵件。

3.分類 (Classification):準(zhǔn)確率

準(zhǔn)確率是一個(gè)用于評(píng)估分類模型的指標(biāo)。通俗來說,準(zhǔn)確率是指我們的模型預(yù)測(cè)正確的結(jié)果所占的比例。正式點(diǎn)說,準(zhǔn)確率的定義如下:

對(duì)于二元分類,也可以根據(jù)正類別和負(fù)類別按如下方式計(jì)算準(zhǔn)確率:

其中,TP = 真正例,TN = 真負(fù)例,F(xiàn)P = 假正例,F(xiàn)N = 假負(fù)例。

讓我們來試著計(jì)算一下以下模型的準(zhǔn)確率,該模型將 100 個(gè)腫瘤分為惡性 (正類別)或良性(負(fù)類別):

準(zhǔn)確率為 0.91,即 91%(總共 100 個(gè)樣本中有 91 個(gè)預(yù)測(cè)正確)。這表示我們的腫瘤分類器在識(shí)別惡性腫瘤方面表現(xiàn)得非常出色,對(duì)吧?

實(shí)際上,只要我們仔細(xì)分析一下正類別和負(fù)類別,就可以更好地了解我們模型的效果。

在 100 個(gè)腫瘤樣本中,91 個(gè)為良性(90 個(gè) TN 和 1 個(gè) FP),9 個(gè)為惡性(1 個(gè) TP 和 8 個(gè) FN)。

在 91 個(gè)良性腫瘤中,該模型將 90 個(gè)正確識(shí)別為良性。這很好。不過,在 9 個(gè)惡性腫瘤中,該模型僅將 1 個(gè)正確識(shí)別為惡性。這是多么可怕的結(jié)果!9 個(gè)惡性腫瘤中有 8 個(gè)未被診斷出來!

雖然 91% 的準(zhǔn)確率可能乍一看還不錯(cuò),但如果另一個(gè)腫瘤分類器模型總是預(yù)測(cè)良性,那么這個(gè)模型使用我們的樣本進(jìn)行預(yù)測(cè)也會(huì)實(shí)現(xiàn)相同的準(zhǔn)確率(100 個(gè)中有 91 個(gè)預(yù)測(cè)正確)。換言之,我們的模型與那些沒有預(yù)測(cè)能力來區(qū)分惡性腫瘤和良性腫瘤的模型差不多。

當(dāng)您使用分類不平衡的數(shù)據(jù)集(比如正類別標(biāo)簽和負(fù)類別標(biāo)簽的數(shù)量之間存在明顯差異)時(shí),單單準(zhǔn)確率一項(xiàng)并不能反映全面情況。

在下一部分中,我們將介紹兩個(gè)能夠更好地評(píng)估分類不平衡問題的指標(biāo):精確率和召回率。

關(guān)鍵字詞

  1. 準(zhǔn)確率 (accuracy)

分類模型的正確預(yù)測(cè)所占的比例。在多類別分類中,準(zhǔn)確率的定義如下:

二元分類中,準(zhǔn)確率的定義如下:

  1. 分類不平衡的數(shù)據(jù)集 (class-imbalanced data set)

一種二元分類問題,在此類問題中,兩種類別的標(biāo)簽在出現(xiàn)頻率方面具有很大的差距。例如,在某個(gè)疾病數(shù)據(jù)集中,0.0001 的樣本具有正類別標(biāo)簽,0.9999 的樣本具有負(fù)類別標(biāo)簽,這就屬于分類不平衡問題;但在某個(gè)足球比賽預(yù)測(cè)器中,0.51 的樣本的標(biāo)簽為其中一個(gè)球隊(duì)贏,0.49 的樣本的標(biāo)簽為另一個(gè)球隊(duì)贏,這就不屬于分類不平衡問題。

4.分類 (Classification):精確率和召回率

精確率

精確率指標(biāo)嘗試回答以下問題:

在被識(shí)別為正類別的樣本中,確實(shí)為正類別的比例是多少?

精確率的定義如下:


注意:如果模型的預(yù)測(cè)結(jié)果中沒有假正例,則模型的精確率為 1.0。

讓我們來計(jì)算一下上一部分中用于分析腫瘤的機(jī)器學(xué)習(xí)模型的精確率:


該模型的精確率為 0.5,也就是說,該模型在預(yù)測(cè)惡性腫瘤方面的正確率是 50%。

召回率

召回率嘗試回答以下問題:

在所有正類別樣本中,被正確識(shí)別為正類別的比例是多少?

從數(shù)學(xué)上講,召回率的定義如下:

注意:如果模型的預(yù)測(cè)結(jié)果中沒有假負(fù)例,則模型的召回率為 1.0。

讓我們來計(jì)算一下腫瘤分類器的召回率:



該模型的召回率是 0.11,也就是說,該模型能夠正確識(shí)別出所有惡性腫瘤的百分比是 11%。

精確率和召回率:一場(chǎng)拔河比賽

要全面評(píng)估模型的有效性,必須同時(shí)檢查精確率和召回率。遺憾的是,精確率和召回率往往是此消彼長(zhǎng)的情況。也就是說,提高精確率通常會(huì)降低召回率值,反之亦然。請(qǐng)觀察下圖來了解這一概念,該圖顯示了電子郵件分類模型做出的 30 項(xiàng)預(yù)測(cè)。分類閾值右側(cè)的被歸類為“垃圾郵件”,左側(cè)的則被歸類為“非垃圾郵件”。

圖 1. 將電子郵件歸類為垃圾郵件或非垃圾郵件

我們根據(jù)圖 1 所示的結(jié)果來計(jì)算精確率和召回率值:

精確率指的是被標(biāo)記為垃圾郵件的電子郵件中正確分類的電子郵件所占的百分比,即圖 1 中閾值線右側(cè)的綠點(diǎn)所占的百分比:


召回率指的是實(shí)際垃圾郵件中正確分類的電子郵件所占的百分比,即圖 1 中閾值線右側(cè)的綠點(diǎn)所占的百分比:

圖 2 顯示了提高分類閾值產(chǎn)生的效果。

圖 2. 提高分類閾值

假正例數(shù)量會(huì)減少,但假負(fù)例數(shù)量會(huì)相應(yīng)地增加。結(jié)果,精確率有所提高,而召回率則有所降低:

相反,圖 3 顯示了降低分類閾值(從圖 1 中的初始位置開始)產(chǎn)生的效果。

圖 3. 降低分類閾值

假正例數(shù)量會(huì)增加,而假負(fù)例數(shù)量會(huì)減少。結(jié)果這一次,精確率有所降低,而召回率則有所提高:


我們已根據(jù)精確率和召回率指標(biāo)制定了各種指標(biāo)。有關(guān)示例,請(qǐng)參閱 F1 值

關(guān)鍵字詞

  1. 精確率 (precision)

一種分類模型指標(biāo)。精確率指模型正確預(yù)測(cè)正類別的頻率,即:

  1. 召回率 (recall)

一種分類模型指標(biāo),用于回答以下問題:在所有可能的正類別標(biāo)簽中,模型正確地識(shí)別出了多少個(gè)?即:

5.分類 (Classification):檢查您的理解情況(準(zhǔn)確率、精確率、召回率)

題目1:準(zhǔn)確率

在以下哪種情況下,高的準(zhǔn)確率值表示機(jī)器學(xué)習(xí)模型表現(xiàn)出色?
A、一只造價(jià)昂貴的機(jī)器雞每天要穿過一條交通繁忙的道路一千次。某個(gè)機(jī)器學(xué)習(xí)模型評(píng)估交通模式,預(yù)測(cè)這只雞何時(shí)可以安全穿過街道,準(zhǔn)確率為 99.99%。

B、一種致命但可治愈的疾病影響著 0.01% 的人群。某個(gè)機(jī)器學(xué)習(xí)模型使用其癥狀作為特征,預(yù)測(cè)這種疾病的準(zhǔn)確率為 99.99%。

C、在 roulette 游戲中,一只球會(huì)落在旋轉(zhuǎn)輪上,并且最終落入 38 個(gè)槽的其中一個(gè)內(nèi)。某個(gè)機(jī)器學(xué)習(xí)模型可以使用視覺特征(球的旋轉(zhuǎn)方式、球落下時(shí)旋轉(zhuǎn)輪所在的位置、球在旋轉(zhuǎn)輪上方的高度)預(yù)測(cè)球會(huì)落入哪個(gè)槽中,準(zhǔn)確率為 4%。

正確答案是C,具體解析如下:

A解析:在一條交通繁忙的道路上,99.99% 的準(zhǔn)確率充分表明該機(jī)器學(xué)習(xí)模型的作用比碰運(yùn)氣要好得多。不過,在某些情況下,即使偶爾出現(xiàn)錯(cuò)誤,代價(jià)也相當(dāng)高。99.99% 的準(zhǔn)確率意味著這只昂貴的雞平均每 10 天就要更換一次。(這只雞也可能對(duì)它撞到的汽車造成嚴(yán)重?fù)p壞。)

B解析:在這種情形中,準(zhǔn)確率是個(gè)糟糕的指標(biāo)。畢竟,即使它只是個(gè)一律預(yù)測(cè)“沒病”的“愚蠢”模型,也依然能達(dá)到 99.99% 的準(zhǔn)確率。而將某個(gè)患病的人錯(cuò)誤地預(yù)測(cè)為“沒病”則可能是致命的。

C解析:這個(gè)機(jī)器學(xué)習(xí)模型做出的預(yù)測(cè)比碰運(yùn)氣要好得多;隨機(jī)猜測(cè)的正確率為 1/38,即準(zhǔn)確率為 2.6%。盡管該模型的準(zhǔn)確率“只有”4%,但成功預(yù)測(cè)獲得的好處遠(yuǎn)遠(yuǎn)大于預(yù)測(cè)失敗的損失。

題目2:精確率

讓我們以一種將電子郵件分為“垃圾郵件”或“非垃圾郵件”這兩種類別的分類模型為例。如果提高分類閾值,精確率會(huì)怎樣?
A、一定會(huì)提高。
B、一定會(huì)降低。
C、可能會(huì)降低。
D、可能會(huì)提高。

A解析:提高分類閾值通常會(huì)使精確率提高;不過,精確率并不一定會(huì)隨著閾值的提高單調(diào)遞增。
B解析:一般來說,提高分類閾值會(huì)減少假正例,從而提高精確率。
C解析:一般來說,提高分類閾值會(huì)減少假正例,從而提高精確率。
D解析:一般來說,提高分類閾值會(huì)減少假正例,從而提高精確率。

題目3:召回率

讓我們以一種將電子郵件分為“垃圾郵件”或“非垃圾郵件”這兩種類別的分類模型為例。如果提高分類閾值,召回率會(huì)怎樣?
A、一定會(huì)提高。
B、始終下降或保持不變。
C、始終保持不變。

A解析:提高分類閾值會(huì)導(dǎo)致出現(xiàn)以下兩種情況:

  • 真正例數(shù)量會(huì)減少或保持不變。
  • 假負(fù)例數(shù)量會(huì)增加或保持不變。

因此,召回率一定不會(huì)提高。

B解析:提高分類閾值會(huì)導(dǎo)致真正例的數(shù)量減少或保持不變,而且會(huì)導(dǎo)致假負(fù)例的數(shù)量增加或保持不變。因此,召回率會(huì)保持不變或下降。

C解析:提高分類閾值會(huì)導(dǎo)致真正例的數(shù)量減少或保持不變,而且會(huì)導(dǎo)致假負(fù)例的數(shù)量增加或保持不變。因此,召回率會(huì)保持不變或下降。

題目4:精確率和召回率

以兩個(gè)模型(A 和 B)為例,這兩個(gè)模型分別對(duì)同一數(shù)據(jù)集進(jìn)行評(píng)估。 以下哪一項(xiàng)陳述屬實(shí)?
A、如果模型 A 的召回率優(yōu)于模型 B,則模型 A 更好。
B、如果模型 A 的精確率優(yōu)于模型 B,則模型 A 更好。
C、如果模型 A 的精確率和召回率均優(yōu)于模型 B,則模型 A 可能更好。

A解析:雖然更高的召回率是好事,但可能是以精確率大幅度降低為代價(jià)。一般來說,我們需要同時(shí)查看精確率和召回率,或者需要匯總曲線下面積等指標(biāo)(我們將在后面部分進(jìn)行討論)。

B解析:雖然更高的精確率是好事,但可能是以召回率大幅度降低為代價(jià)。一般來說,我們需要同時(shí)查看精確率和召回率,或者需要匯總曲線下面積等指標(biāo)(我們將在后面部分進(jìn)行討論)。

C解析:一般來說,如果某個(gè)模型在精確率和召回率方面均優(yōu)于另一模型,則該模型可能更好。很顯然,我們需要確保在精確率/召回率點(diǎn)處進(jìn)行比較,這在實(shí)踐中非常有用,因?yàn)檫@樣做才有實(shí)際意義。例如,假設(shè)我們的垃圾郵件檢測(cè)模型需要達(dá)到至少 90% 的精確率才算有用,并可以避免不必要的虛假警報(bào)。在這種情況下,將 {20% 精確率,99% 召回率} 模型與另一個(gè) {15% 精確率,98% 召回率} 模型進(jìn)行比較不是特別有意義,因?yàn)檫@兩個(gè)模型都不符合 90% 的精確率要求。但考慮到這一點(diǎn),在通過精確率和召回率比較模型時(shí),這是一種很好的方式。

6.分類 (Classification):ROC 和曲線下面積

ROC 曲線

ROC 曲線(接收者操作特征曲線)是一種顯示分類模型在所有分類閾值下的效果的圖表。該曲線繪制了以下兩個(gè)參數(shù):

  • 真正例率
  • 假正例率

**真正例率 (TPR) **是召回率的同義詞,因此定義如下:

**假正例率 (FPR) **的定義如下:


ROC 曲線用于繪制采用不同分類閾值時(shí)的 TPR 與 FPR。降低分類閾值會(huì)導(dǎo)致將更多樣本歸為正類別,從而增加假正例和真正例的個(gè)數(shù)。下圖顯示了一個(gè)典型的 ROC 曲線。

圖 4. 不同分類閾值下的 TP 率與 FP 率

為了計(jì)算 ROC 曲線上的點(diǎn),我們可以使用不同的分類閾值多次評(píng)估邏輯回歸模型,但這樣做效率非常低。幸運(yùn)的是,有一種基于排序的高效算法可以為我們提供此類信息,這種算法稱為曲線下面積。

曲線下面積:ROC 曲線下面積

曲線下面積表示“ROC 曲線下面積”。也就是說,曲線下面積測(cè)量的是從 (0,0) 到 (1,1) 之間整個(gè) ROC 曲線以下的整個(gè)二維面積(參考積分學(xué))。

圖 5. 曲線下面積(ROC 曲線下面積)

曲線下面積對(duì)所有可能的分類閾值的效果進(jìn)行綜合衡量。曲線下面積的一種解讀方式是看作模型將某個(gè)隨機(jī)正類別樣本排列在某個(gè)隨機(jī)負(fù)類別樣本之上的概率。以下面的樣本為例,邏輯回歸預(yù)測(cè)從左到右以升序排列:


圖 6. 預(yù)測(cè)按邏輯回歸分?jǐn)?shù)以升序排列

曲線下面積表示隨機(jī)正類別(綠色)樣本位于隨機(jī)負(fù)類別(紅色)樣本右側(cè)的概率。

曲線下面積的取值范圍為 0-1。預(yù)測(cè)結(jié)果 100% 錯(cuò)誤的模型的曲線下面積為 0.0;而預(yù)測(cè)結(jié)果 100% 正確的模型的曲線下面積為 1.0。

  • 曲線下面積因以下兩個(gè)原因而比較實(shí)用:
  • 曲線下面積的尺度不變。它測(cè)量預(yù)測(cè)的排名情況,而不是測(cè)量其絕對(duì)值。
    曲線下面積的分類閾值不變。它測(cè)量模型預(yù)測(cè)的質(zhì)量,而不考慮所選的分類閾值。

不過,這兩個(gè)原因都有各自的局限性,這可能會(huì)導(dǎo)致曲線下面積在某些用例中不太實(shí)用:

  • 并非總是希望尺度不變。 例如,有時(shí)我們非常需要被良好校準(zhǔn)的概率輸出,而曲線下面積無法告訴我們這一結(jié)果。

  • 并非總是希望分類閾值不變。 在假負(fù)例與假正例的代價(jià)存在較大差異的情況下,盡量減少一種類型的分類錯(cuò)誤可能至關(guān)重要。例如,在進(jìn)行垃圾郵件檢測(cè)時(shí),您可能希望優(yōu)先考慮盡量減少假正例(即使這會(huì)導(dǎo)致假負(fù)例大幅增加)。對(duì)于此類優(yōu)化,曲線下面積并非一個(gè)實(shí)用的指標(biāo)。

關(guān)鍵字詞

  1. ROC 曲線下面積 (AUC, Area under the ROC Curve)

一種會(huì)考慮所有可能分類閾值的評(píng)估指標(biāo)

ROC 曲線下面積是,對(duì)于隨機(jī)選擇的正類別樣本確實(shí)為正類別,以及隨機(jī)選擇的負(fù)類別樣本為正類別,分類器更確信前者的概率。

  1. 受試者工作特征曲線(receiver operating characteristic, 簡(jiǎn)稱 ROC 曲線)

不同分類閾值下的真正例率假正例率構(gòu)成的曲線。另請(qǐng)參閱曲線下面積

7.分類 (Classification):檢查您的理解情況(ROC 和 AUC)

題目1:ROC 和 AUC

以下哪條 ROC 曲線可產(chǎn)生大于 0.5 的 AUC 值?

A

B
C
D

E

答案是BE

A解析:這是可能出現(xiàn)的最差 ROC 曲線;它將所有負(fù)分類排列在正分類之上,其 AUC 為 0.0。如果您要逆轉(zhuǎn)每一項(xiàng)預(yù)測(cè)結(jié)果(將負(fù)分類翻轉(zhuǎn)為正分類,將正分類翻轉(zhuǎn)為負(fù)分類),還真的需要一個(gè)完美分類器!

B解析:這是可能達(dá)到的最好 ROC 曲線,因?yàn)樗鼘⑺姓悇e排列在所有負(fù)類別之上。該曲線的 AUC 為 1.0。

備注:實(shí)際上,如果您有一個(gè) AUC 為 1.0 的“完美”分類器,您應(yīng)該感到可疑,因?yàn)檫@可能表明您的模型中存在錯(cuò)誤。例如,您的訓(xùn)練數(shù)據(jù)可能過擬合,或者帶標(biāo)簽數(shù)據(jù)可能被復(fù)制到其中一項(xiàng)特征中。

C解析:該 ROC 曲線的 AUC 介于 0 到 0.5 之間,這意味著它在不到 50% 的情況下將某個(gè)隨機(jī)正分類樣本排列在某個(gè)隨機(jī)負(fù)分類樣本之上。相應(yīng)的模型實(shí)際上比隨機(jī)猜測(cè)的效果更差!如果您看到這樣的 ROC 曲線,可能表明您的數(shù)據(jù)中存在錯(cuò)誤。

D解析:該 ROC 曲線的 AUC 為 0.5,這意味著 50% 的情況下它將某個(gè)隨機(jī)正分類樣本排列在某個(gè)隨機(jī)負(fù)分類樣本之上。因此,相應(yīng)的分類模型基本上毫無價(jià)值,因?yàn)槠漕A(yù)測(cè)能力與隨機(jī)猜測(cè)差不多。

E解析:該 ROC 曲線的 AUC 介于 0.5 到 1.0 之間,這意味著它在超過 50% 以上的情況下將某個(gè)隨機(jī)正分類樣本排列在某個(gè)隨機(jī)負(fù)分類樣本之上。實(shí)際二元分類的 AUC 值通常在此范圍內(nèi)。

題目2:AUC 和預(yù)測(cè)結(jié)果的尺度

將給定模型的所有預(yù)測(cè)結(jié)果都乘以 2.0(例如,如果模型預(yù)測(cè)的結(jié)果為 0.4,我們將其乘以 2.0 得到 0.8),會(huì)使按 AUC 衡量的模型效果產(chǎn)生何種變化?

A、這會(huì)使 AUC 變得很糟糕,因?yàn)轭A(yù)測(cè)值現(xiàn)在相差太大。
B、這會(huì)使 AUC 變得更好,因?yàn)轭A(yù)測(cè)值之間相差都很大。
C、沒有變化。AUC 只關(guān)注相對(duì)預(yù)測(cè)分?jǐn)?shù)。

A解析:有趣的是,即使預(yù)測(cè)值不同(可能與事實(shí)相差很大),將它們?nèi)砍艘?2.0 會(huì)使預(yù)測(cè)值的相對(duì)排序保持不變。由于 AUC 只關(guān)注相對(duì)排名,因此不會(huì)受到任何簡(jiǎn)單的預(yù)測(cè)大小縮放的影響。

B解析:預(yù)測(cè)結(jié)果之間的差距實(shí)際上并不會(huì)影響 AUC。即使隨機(jī)抽取的真正例的預(yù)測(cè)分?jǐn)?shù)只比隨機(jī)抽取的負(fù)類別樣本的預(yù)測(cè)分?jǐn)?shù)大一點(diǎn)點(diǎn),也會(huì)被當(dāng)作對(duì)總體 AUC 分?jǐn)?shù)有貢獻(xiàn)。

C解析:沒錯(cuò),AUC 以相對(duì)預(yù)測(cè)為依據(jù),因此保持相對(duì)排名的任何預(yù)測(cè)變化都不會(huì)對(duì) AUC 產(chǎn)生影響。而對(duì)其他指標(biāo)而言顯然并非如此,例如平方誤差、對(duì)數(shù)損失函數(shù)或預(yù)測(cè)偏差(稍后討論)。

8.分類 (Classification):預(yù)測(cè)偏差

邏輯回歸預(yù)測(cè)應(yīng)當(dāng)無偏差。即:

“預(yù)測(cè)平均值”應(yīng)當(dāng)約等于“觀察平均值”

預(yù)測(cè)偏差指的是這兩個(gè)平均值之間的差值。即:

注意:“預(yù)測(cè)偏差”與偏差(“wx + b”中的“b”)不是一回事。

如果出現(xiàn)非常高的非零預(yù)測(cè)偏差,則說明模型某處存在錯(cuò)誤,因?yàn)檫@表明模型對(duì)正類別標(biāo)簽的出現(xiàn)頻率預(yù)測(cè)有誤。

例如,假設(shè)我們知道,所有電子郵件中平均有 1% 的郵件是垃圾郵件。如果我們對(duì)某一封給定電子郵件一無所知,則預(yù)測(cè)它是垃圾郵件的可能性為 1%。同樣,一個(gè)出色的垃圾郵件模型應(yīng)該預(yù)測(cè)到電子郵件平均有 1% 的可能性是垃圾郵件。(換言之,如果我們計(jì)算單個(gè)電子郵件是垃圾郵件的預(yù)測(cè)可能性的平均值,則結(jié)果應(yīng)該是 1%。)然而,如果該模型預(yù)測(cè)電子郵件是垃圾郵件的平均可能性為 20%,那么我們可以得出結(jié)論,該模型出現(xiàn)了預(yù)測(cè)偏差。

造成預(yù)測(cè)偏差的可能原因包括:

  • 特征集不完整
  • 數(shù)據(jù)集混亂
  • 模型實(shí)現(xiàn)流水線中有錯(cuò)誤?
  • 訓(xùn)練樣本有偏差
  • 正則化過強(qiáng)

您可能會(huì)通過對(duì)學(xué)習(xí)模型進(jìn)行后期處理來糾正預(yù)測(cè)偏差,即通過添加校準(zhǔn)層來調(diào)整模型的輸出,從而減小預(yù)測(cè)偏差。例如,如果您的模型存在 3% 以上的偏差,則可以添加一個(gè)校準(zhǔn)層,將平均預(yù)測(cè)偏差降低 3%。但是,添加校準(zhǔn)層并非良策,具體原因如下:

  • 您修復(fù)的是癥狀,而不是原因。
  • 您建立了一個(gè)更脆弱的系統(tǒng),并且必須持續(xù)更新。

如果可能的話,請(qǐng)避免添加校準(zhǔn)層。使用校準(zhǔn)層的項(xiàng)目往往會(huì)對(duì)其產(chǎn)生依賴 - 使用校準(zhǔn)層來修復(fù)模型的所有錯(cuò)誤。最終,維護(hù)校準(zhǔn)層可能會(huì)令人苦不堪言。

注意:出色模型的偏差通常接近于零。即便如此,預(yù)測(cè)偏差低并不能證明您的模型比較出色。特別糟糕的模型的預(yù)測(cè)偏差也有可能為零。例如,只能預(yù)測(cè)所有樣本平均值的模型是糟糕的模型,盡管其預(yù)測(cè)偏差為零。

分桶偏差和預(yù)測(cè)偏差

邏輯回歸可預(yù)測(cè) 0 到 1 之間的值。不過,所有帶標(biāo)簽樣本都正好是 0(例如,0 表示“非垃圾郵件”)或 1(例如,1 表示“垃圾郵件”)。因此,在檢查預(yù)測(cè)偏差時(shí),您無法僅根據(jù)一個(gè)樣本準(zhǔn)確地確定預(yù)測(cè)偏差;您必須在“一大桶”樣本中檢查預(yù)測(cè)偏差。也就是說,只有將足夠的樣本組合在一起以便能夠比較預(yù)測(cè)值(例如 0.392)與觀察值(例如 0.394),邏輯回歸的預(yù)測(cè)偏差才有意義。

您可以通過以下方式構(gòu)建桶:

  • 以線性方式分解目標(biāo)預(yù)測(cè)。
  • 構(gòu)建分位數(shù)。

請(qǐng)查看以下某個(gè)特定模型的校準(zhǔn)曲線。每個(gè)點(diǎn)表示包含 1000 個(gè)值的分桶。兩個(gè)軸具有以下含義:

  • x 軸表示模型針對(duì)該桶預(yù)測(cè)的平均值。
  • y 軸表示該桶的數(shù)據(jù)集中的實(shí)際平均值。

兩個(gè)軸均采用對(duì)數(shù)尺度。

圖 8. 預(yù)測(cè)偏差曲線(對(duì)數(shù)尺度)

為什么只有模型的某些部分所做的預(yù)測(cè)如此糟糕?以下是幾種可能性:

  • 訓(xùn)練集不能充分表示數(shù)據(jù)空間的某些子集。
  • 數(shù)據(jù)集的某些子集比其他子集更混亂。
  • 該模型過于正則化。(不妨減小 lambda 的值。)

關(guān)鍵字詞

  1. 分桶 (bucketing)

將一個(gè)特征(通常是連續(xù)特征)轉(zhuǎn)換成多個(gè)二元特征(稱為桶或箱),通常是根據(jù)值區(qū)間進(jìn)行轉(zhuǎn)換。例如,您可以將溫度區(qū)間分割為離散分箱,而不是將溫度表示成單個(gè)連續(xù)的浮點(diǎn)特征。假設(shè)溫度數(shù)據(jù)可精確到小數(shù)點(diǎn)后一位,則可以將介于 0.0 到 15.0 度之間的所有溫度都?xì)w入一個(gè)分箱,將介于 15.1 到 30.0 度之間的所有溫度歸入第二個(gè)分箱,并將介于 30.1 到 50.0 度之間的所有溫度歸入第三個(gè)分箱。

  1. 預(yù)測(cè)偏差 (prediction bias)

一個(gè)值,用于表明預(yù)測(cè)平均值與數(shù)據(jù)集中標(biāo)簽的平均值相差有多大。

  1. 校準(zhǔn)層 (calibration layer)

一種預(yù)測(cè)后調(diào)整,通常是為了降低預(yù)測(cè)偏差。調(diào)整后的預(yù)測(cè)和概率應(yīng)與觀察到的標(biāo)簽集的分布一致。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,595評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評(píng)論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,814評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,224評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評(píng)論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,444評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,988評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,804評(píng)論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,998評(píng)論 1 370
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評(píng)論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,237評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評(píng)論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,706評(píng)論 3 393
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,993評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容