在計(jì)算機(jī)科學(xué)特別是機(jī)器學(xué)習(xí)領(lǐng)域中，對(duì)模型的評(píng)估至關(guān)重要。只有選擇與問(wèn)題相匹配的評(píng)估方法，才能快速地發(fā)現(xiàn)模型選擇或訓(xùn)練過(guò)程中出現(xiàn)的問(wèn)題，迭代地對(duì)模型進(jìn)行優(yōu)化。

1、評(píng)估指標(biāo)的局限性

在模型評(píng)估過(guò)程中，分類問(wèn)題、排序問(wèn)題、回歸問(wèn)題往往需要使用不同的指標(biāo)進(jìn)行評(píng)估。在諸多的評(píng)估指標(biāo)中，大部分指標(biāo)只能片面地反映模型的一部分性能。如果不能合理地運(yùn)用評(píng)估指標(biāo) ，不僅不能發(fā)現(xiàn)模型本身的問(wèn)題，而且會(huì)得出錯(cuò)誤的結(jié)論。

1.1、準(zhǔn)確率這一指標(biāo)有何局限性？

我的回答：

準(zhǔn)確率又稱為精度，是我們解決分類問(wèn)題時(shí)最常用來(lái)衡量結(jié)果好壞所用的指標(biāo)。其定義如下：

$Accuracy=\frac{n_{correct}}{n_{total}}$

準(zhǔn)確率的局限性在于不能很好地處理不平衡樣本（Unbalanced Sample）的情況，比如我們的訓(xùn)練樣本中99%都是正例，只有1%是負(fù)例，那么即使我們的分類器將所有樣本類別預(yù)測(cè)為正，也有99%的準(zhǔn)確率，但很顯然，這個(gè)模型并不好，尤其是我們特別關(guān)注的是1%的負(fù)例的時(shí)候（比如安檢時(shí)的恐怖分子篩查、對(duì)一些癥狀不明朗的病人進(jìn)行確診等等）。

參考答案：

通過(guò)實(shí)例闡述了我的回答。

1.2、為什么要權(quán)衡精確率與召回率？如何權(quán)衡？

我的回答：

1、關(guān)于精確率與召回率，我昨天剛看了一篇博客，講解得很清晰了，博客中舉了登機(jī)前恐怖分子篩查的例子。每年100萬(wàn)的乘客中，有18名恐怖分子，這是典型的樣本不平衡的情況，若采用準(zhǔn)確率進(jìn)行衡量，那么直接判定所有乘客均不是恐怖分子的模型將會(huì)獲得接近1的準(zhǔn)確率，但很明顯這樣的模型是無(wú)用的。

召回率（recall）定義如下：

$Recall=\frac{true\ positive}{true\ positive+false\ negative}$

在本例中對(duì)應(yīng)的是18名恐怖分子中被篩查出來(lái)的比例。這一指標(biāo)看似完美，但一個(gè)將所有乘客標(biāo)為恐怖分子的模型的召回率為1，但顯然，這樣的模型也是沒有意義的。這時(shí)我們需要另一個(gè)指標(biāo)來(lái)制衡。

精確率（precision）定義如下：

$Precision=\frac{true\ positive}{true\ positive+false\ postive}$

在本例中對(duì)應(yīng)的是所有被模型標(biāo)為恐怖分子的人中有多少比例真的是恐怖分子。在保證召回率較高的同時(shí)使得精確率也較高就可以避免上述問(wèn)題。

綜上我們希望權(quán)衡精確率與召回率，使得兩者都比較高。兩個(gè)指標(biāo)誰(shuí)更重要視具體問(wèn)題而定。

2、權(quán)衡精確率與召回率的方法有很多，包括 $P-R$ 曲線、 $ROC$ 曲線等，也可以使用指標(biāo) $F_1$ ：

$F_1=\frac{2*precision*recall}{precision+recall}$

也就是 $precision$ 和 $recall$ 兩者的調(diào)和平均。

之所以使用調(diào)和平均而不是算術(shù)平均，是因?yàn)?strong>調(diào)和平均會(huì)懲罰極端值。比如下面兩種情況：

$precision$ 為0.5， $recall$ 為0.5
$precision$ 為0， $recall$ 為1

若使用算術(shù)平均值兩者一樣好，但實(shí)際上第二種情況是我們應(yīng)該避免的。調(diào)和平均可以幫我們避免這種情況的出現(xiàn)。

參考答案：

和我的回答差不多，額外補(bǔ)充了 $P-R$ 曲線的畫法，這部分放在后面和 $ROC$ 曲線一起說(shuō)。

1.3、無(wú)論采用哪種回歸模型得到的RMSE指標(biāo)都非常高。然而事實(shí)是模型在95%的時(shí)間內(nèi)預(yù)測(cè)誤差都小于1%，取得了相當(dāng)不錯(cuò)的預(yù)測(cè)結(jié)果。造成RMSE指標(biāo)居高不下的最可能的原因是什么？如何解決呢？

我的回答：

1、有少數(shù)噪聲點(diǎn)和離群點(diǎn)使得RMSE指標(biāo)非常高。

2、解決方案就是在清洗數(shù)據(jù)的時(shí)候把這些離群點(diǎn)過(guò)濾出去或者選用對(duì)離群點(diǎn)更穩(wěn)健的指標(biāo)。

參考答案：

1、一般情況下， RMSE能夠很好地反映回歸模型預(yù)測(cè)值與真實(shí)值的偏離程度。但在實(shí)際問(wèn)題中，如果存在個(gè)別偏離程度非常大的離群點(diǎn)(Outlier）時(shí)，即使離群點(diǎn)數(shù)量非常少也會(huì)讓RMSE指標(biāo)變得很差。

2、解決方案如下：

1）如果我們認(rèn)定這些離群點(diǎn)是“噪聲點(diǎn)”的話，就需要在數(shù)據(jù)預(yù)處理的階段把這些噪聲點(diǎn)過(guò)濾掉。

2）如果不認(rèn)為這些離群點(diǎn)是“噪聲點(diǎn)”的話，就需要進(jìn)一步提高模型的預(yù)測(cè)能力，將離群點(diǎn)產(chǎn)生的機(jī)制建模進(jìn)去。

3）可以找一個(gè)更合適的指標(biāo)采評(píng)估該模型。關(guān)于評(píng)估指標(biāo)，存在比RMSE的魯棒性更好的指標(biāo)，比如平均絕對(duì)百分比誤差（MAPE），其定義為：

$MAPE=\sum_{i=1}^{n}\left|\frac{y_{i}-\hat{y}_{i}}{y_{i}}\right| \times \frac{100}{n}$

相比RMSE，MAPE相當(dāng)于把每個(gè)點(diǎn)的誤差進(jìn)行了歸一化，降低了個(gè)別離群點(diǎn)帶來(lái)的絕對(duì)誤差的影響。

2、ROC曲線

二值分類器（BinaryClassifier ）是機(jī)器學(xué)習(xí)領(lǐng)域中最常見也是應(yīng)用最廣泛的分類器。ROC曲線則經(jīng)常作為評(píng)估二值分類器最重要的指標(biāo)之一。

2.1、什么是ROC曲線？

我的回答：

ROC曲線是Receiver Operating Characteristic Curve的簡(jiǎn)稱，中文名為“受試者工作特征由線”。

ROC曲線的橫縱軸分別是什么記不清了……不過(guò)曲線下面積（AUC）越大說(shuō)明模型效果越好。

參考答案：

ROC曲線的橫坐標(biāo)為假正率（False Positive Rate, FPR），縱坐標(biāo)為真正率（True Positive Rate, TPR）。 $FPR$ 和 $TPR$ 的計(jì)算方法分別為：

$FPR=\frac{FP}{FP+TN}$

$TPR=\frac{TP}{TP+FN}$

更深入的理解來(lái)自這里：

結(jié)合西瓜書中關(guān)于ROC曲線的畫法更容易理解上圖ROC的形狀：

2.2、如何繪制ROC曲線？

我的回答：

上圖已經(jīng)給出了詳細(xì)的畫法。

參考答案：

首先，根據(jù)樣本標(biāo)簽統(tǒng)計(jì)出正負(fù)樣本數(shù)量，假設(shè)正樣本數(shù)量為 $P$ ，負(fù)樣本數(shù)量為 $N$ ；接下來(lái)，把橫軸的刻度間隔設(shè)置為 $1/N$ ，縱軸的刻度間隔設(shè)置為 $1/P$ ；再根據(jù)模型輸出的預(yù)測(cè)概率對(duì)樣本進(jìn)行排序（從高到低）；依次遍歷樣本，同時(shí)從零點(diǎn)開始繪制ROC曲線，每遇到一個(gè)正樣本就沿縱軸方向繪制一個(gè)刻度間隔的曲線，每遇到一個(gè)負(fù)樣本就沿橫軸方向繪制一個(gè)刻度間隔的曲線，直到遍歷完所有樣本，由線最終停在 $(1,1)$ 這個(gè)點(diǎn)，整個(gè)ROC曲線繪制完成。

2.3、如何計(jì)算AUC?

我的回答：

所謂AUC就是曲線下面積（Area Under Curve），以上圖為例，由于實(shí)際的ROC曲線是由折線構(gòu)成的，因此直接計(jì)算各矩形面積累加即可。

參考答案：

計(jì)算AUC值只需要沿著ROC橫軸做積分就可以了。由于ROC曲線一般都處于 $y=x$ 這條直線的上方（如果不是的話，只要把模型預(yù)測(cè)的概率 $p$ 反轉(zhuǎn)成 $1-p$ 就可以得到一個(gè)更好的分類器），所以AUC的取值一般在 $0.5 ～ 1$ 之間。AUC越大，說(shuō)明分類器越可能把真正的正樣本排在前面，分類性能越好。

2.4、ROC曲線相比P-R曲線有什么特點(diǎn)？

我的回答：

ROC曲線的橫軸是假正率，縱軸是真正率。

P-R曲線的橫軸是精確率，縱軸是召回率（等于真正率）。

也就是說(shuō)，兩者的縱軸其實(shí)是相同的指標(biāo)，不同的地方在于橫軸。

至于由此導(dǎo)致的不同我就不太清楚了……

參考答案：

相比P-R曲線，ROC曲線有一個(gè)特點(diǎn)，當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí)，ROC曲線的形狀能夠基本保持不變，而P-R曲線的形狀一般會(huì)發(fā)生較劇烈的變化。

這個(gè)特點(diǎn)讓 ROC 曲線能夠盡量降低不同測(cè)試集帶來(lái)的干擾，更加客觀地衡量模型本身的性能。

3、余弦距離的應(yīng)用

在機(jī)器學(xué)習(xí)問(wèn)題中，通常將特征表示為向量的形式，所以在分析兩個(gè)特征向量之間的相似性時(shí)常使用余弦相似度來(lái)表示。余弦相似度的取值范圍是 $[-1,1]$ ，相同的兩個(gè)向量之間的相似度為1。如果希望得到類似于距離的表示，1減去余弦相似度即為余弦距離。因此余弦距離的取值范圍為 $[0,2]$ ，相同的兩個(gè)向量余弦距離為0。

3.1、為什么在一些場(chǎng)景中要使用余弦距離而不是歐氏距離？

我的回答：

因?yàn)闅W氏距離易受量綱和取值范圍影響，而余弦距離可以解決這個(gè)問(wèn)題。

比如我們想尋找電影品味相近的觀眾，假設(shè)現(xiàn)在有兩個(gè)觀眾及其對(duì)電影的評(píng)分，兩人電影評(píng)分的排序完全相同，但觀眾 $A$ 打分區(qū)間在 $[0,5]$ 而觀眾 $B$ 打分區(qū)間在 $[6,10]$ ，這將導(dǎo)致兩個(gè)觀眾的歐氏距離很大，從而得出兩人觀影品味并不相似的結(jié)果。

參考答案：

總體來(lái)說(shuō)，歐氏距離體現(xiàn)數(shù)值上的絕對(duì)差異，而余弦距離體現(xiàn)方向上的相對(duì)差異。

例如，統(tǒng)計(jì)兩部劇的用戶觀看行為，用戶 $A$ 的觀看向量為 $(0,1)$ ，用戶 $B$ 為 $(1,0)$ ，此時(shí)二者的余弦距離很大，而歐氏距離很小。我們分析兩個(gè)用戶對(duì)于不同視頻的偏好更關(guān)注相對(duì)差異，顯然應(yīng)當(dāng)使用余弦距離。而當(dāng)我們分析用戶活躍度，以登陸次數(shù)和平均觀看時(shí)長(zhǎng)作為特征時(shí)，余弦距離會(huì)認(rèn)為 $(1,10),(10,100)$ 兩個(gè)用戶距離很近，但顯然這兩個(gè)用戶活躍度是有著極大差異的，此時(shí)我們更關(guān)注數(shù)值絕對(duì)差異，應(yīng)當(dāng)使用歐氏距離。

3.2、余弦距離是否是一個(gè)嚴(yán)格定義的距離？

我的回答：

一個(gè)嚴(yán)格定義的距離應(yīng)當(dāng)滿足非負(fù)性、對(duì)稱性和三角不等式。

顯然余弦距離滿足非負(fù)性和三角不等式，但其不滿足三角不等式。因此不是一個(gè)嚴(yán)格定義的距離。

參考答案：

如上所述，三角不等式性質(zhì)并不成立，因此余弦距離不是一個(gè)嚴(yán)格定義的距離。下面給出一個(gè)反例。設(shè) $A=(1,0),B=(1,1),C=(0,1)$ ，則：

$\begin{array}{c}{\operatorname{dist}(A, B)=1-\frac{\sqrt{2}}{2}} \\ {\operatorname{dist}(B, C)=1-\frac{\sqrt{2}}{2}} \\ {\operatorname{dist}(A, C)=1}\end{array}$

因此：

$dist(A,B)+dist(B,C)=2-\sqrt{2}<1=dist(A,C)$

在機(jī)器學(xué)習(xí)領(lǐng)域被稱為距離，卻不滿足三條距離公理的不僅僅有余弦距離，還有KL距離（Kullback-Leibler Divergence），也叫作相對(duì)熵，常用于計(jì)算兩個(gè)分布之間的差異，它不滿足對(duì)稱性和三角不等式。

4、A/B測(cè)試的陷阱

在互聯(lián)網(wǎng)公司中， A/B測(cè)試是驗(yàn)證新模塊、新功能、新產(chǎn)品是否高效，新算法、新模型的效果是否有提升，新設(shè)計(jì)是否受到用戶歡迎，新更改是否影響用戶體驗(yàn)的主要測(cè)試方法。在機(jī)器學(xué)習(xí)領(lǐng)域中，A/B測(cè)試是驗(yàn)證模型最終效果的主要手段。

這部分內(nèi)容我完全沒有接觸過(guò)，所以就不班門弄斧了，直接整理參考答案。

4.1、在對(duì)模型避行過(guò)充分的離線評(píng)估之后，為什么還要進(jìn)行在線A/B測(cè)試？

參考答案：

需要進(jìn)行在線A/B測(cè)試的原因如下：

1）離線評(píng)估無(wú)法完全消除模型過(guò)擬合的影響，因此得出的離線評(píng)估結(jié)果無(wú)法完全替代線上評(píng)估結(jié)果。

2）離線評(píng)估無(wú)法完全還原線上的工程環(huán)境。一般來(lái)講，離線評(píng)估往往不會(huì)考慮線上環(huán)境的延遲、數(shù)據(jù)丟失、標(biāo)簽數(shù)據(jù)缺失等情況。因此，離線評(píng)估的結(jié)果是理想工程環(huán)境下的結(jié)果。

3）線上系統(tǒng)的某些商業(yè)指標(biāo)在離線評(píng)估中無(wú)法計(jì)算。離線評(píng)估一般是針對(duì)模型本身進(jìn)行評(píng)估，而與模型相關(guān)的其他指標(biāo)，特別是商業(yè)指標(biāo)，往往無(wú)法直接獲得。比如，上線了新的推薦算法，離線評(píng)估往往關(guān)注的是ROC曲線、P-R曲線等的改進(jìn)，而線上評(píng)估可以全面了解該推薦算法帶來(lái)的用戶點(diǎn)擊率、留存時(shí)長(zhǎng)、PV等的變化。

4.2、如何進(jìn)行線上的A/B測(cè)試？

參考答案：

進(jìn)行A/B測(cè)試的主要手段是進(jìn)行用戶分桶，即將用戶分成實(shí)驗(yàn)組和對(duì)照組，對(duì)實(shí)驗(yàn)組的用戶施以新模型，對(duì)對(duì)照組的用戶施以舊模型。

在分桶的過(guò)程中要注意樣本的獨(dú)立性和采樣方式的無(wú)偏性，確保同一個(gè)用戶每次只能分到同一個(gè)桶中，在分桶過(guò)程中所選取的user_id需要是一個(gè)隨機(jī)數(shù)，這樣才能保證桶中的樣本是無(wú)偏的。

5、模型評(píng)估的方法

在機(jī)器學(xué)習(xí)中，我們通常把樣本分為訓(xùn)練集和測(cè)試集，訓(xùn)練集用于訓(xùn)練模型，測(cè)試集用于評(píng)估模型。

5.1、在模型評(píng)估中，有哪些主要的驗(yàn)證方法，它們的優(yōu)缺點(diǎn)是什么？

我的回答：

1、數(shù)據(jù)集較小時(shí)，可以使用交叉驗(yàn)證法，或 $k$ -折驗(yàn)證法。即將數(shù)據(jù)集分為 $k$ 份，然后每次留出其中一份用作驗(yàn)證集，剩下 $k-1$ 份用作訓(xùn)練集，最后將 $k$ 次檢驗(yàn)誤差做平均得到最終結(jié)果。

2、數(shù)據(jù)集足夠大時(shí)，可以直接將數(shù)據(jù)集按照60%、20%、20%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

參考答案：

1、Holdout檢驗(yàn)

Holdout檢驗(yàn)是最簡(jiǎn)單也是最直接的驗(yàn)證方法，它將原始的樣本集隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說(shuō)，對(duì)于一個(gè)點(diǎn)擊率預(yù)測(cè)模型，我們把樣本按照70%和30%的比例分成兩部分，70%的樣本用于模型訓(xùn)練； 30% 的樣本用于模型驗(yàn)證，包括繪制ROC曲線、計(jì)算精確率和召回率等指標(biāo)來(lái)評(píng)估模型性能。

Holdout檢驗(yàn)的缺點(diǎn)很明顯，即在驗(yàn)證集上計(jì)算出來(lái)的最后評(píng)估指標(biāo)與原始分組有很大關(guān)系。為了消除隨機(jī)性，研究者們引入了“交叉檢驗(yàn)”的思想。

2、交叉檢驗(yàn)

$k$ - $fold$ 交叉驗(yàn)證：首先將全部樣本劃分成 $k$ 個(gè)大小中目等的樣本子集，依次遍歷這 $k$ 個(gè)子集，每次把當(dāng)前子集作為驗(yàn)證集，其余子集作為訓(xùn)練集，進(jìn)行模型的訓(xùn)練和評(píng)估；最后把 $k$ 次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。在實(shí)際實(shí)驗(yàn)中， $k$ 經(jīng)常取10。

3、自助法

不管是Holdout檢驗(yàn)還是交叉檢驗(yàn)，都是基于劃分訓(xùn)練集和測(cè)試集的方法進(jìn)行模型評(píng)估的。然而，當(dāng)樣本規(guī)模比較小時(shí)，將樣本集進(jìn)行劃分會(huì)讓訓(xùn)練集進(jìn)一步減小，這可能會(huì)影響模型訓(xùn)練效果。有沒有能維持訓(xùn)練集樣本規(guī)模的驗(yàn)證方法呢？自助法可以比較好地解決這個(gè)問(wèn)題。

自助法是基于自助采樣法的檢驗(yàn)方法。對(duì)于總數(shù)為 $n$ 的樣本集合進(jìn)行 $n$ 次有放回的隨機(jī)抽樣，得到大小為 $n$ 的訓(xùn)練集。 $n$ 次采樣過(guò)程中有的樣本會(huì)被重復(fù)采樣，有的樣本則沒被抽出過(guò)，將這些沒被抽出的樣本作為驗(yàn)證集，進(jìn)行模型驗(yàn)證，這就是自助法的驗(yàn)證過(guò)程。

5.2、在自助法的采樣過(guò)程中，對(duì) $n$ 個(gè)樣本進(jìn)行 $n$ 次自助抽樣，當(dāng) $n$ 趨于無(wú)窮大時(shí)，最終有多少數(shù)據(jù)從未被選擇過(guò)？

我的回答：

由于是有放回采樣，故每次采樣過(guò)程中每個(gè)樣本未被選擇的概率均為 $1-\frac{1}{n}$ ，從而一個(gè)樣本 $n$ 次采樣均未被選擇到的概率為：

$\lim_{n\rightarrow\infty}(1-\frac{1}{n})^n=\frac{1}{e}$

故最終大約有 $\frac{1}{e}$ 的數(shù)據(jù)從未被選擇過(guò)。

參考答案：

同上。

6、超參數(shù)調(diào)優(yōu)

6.1、超參數(shù)有哪些調(diào)優(yōu)方法？

我的回答：

1、可以手動(dòng)給各個(gè)超參數(shù)設(shè)定一些候選值，然后采用網(wǎng)格搜索的方法找出在驗(yàn)證集上表現(xiàn)最好的模型對(duì)應(yīng)的一組超參數(shù)。

2、若沒有設(shè)定超參數(shù)候選值的相關(guān)經(jīng)驗(yàn)，可以采用隨機(jī)搜索的方法。

3、還可以采用啟發(fā)式的算法，讓超參數(shù)也可以向誤差減小的方向移動(dòng)。

參考答案：

1、網(wǎng)格搜索

網(wǎng)格搜索可能是最簡(jiǎn)單、應(yīng)用最廣泛的超參數(shù)搜索算法，它通過(guò)查找搜索范圍內(nèi)的所有的點(diǎn)來(lái)確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長(zhǎng)，網(wǎng)格搜索很大概率可以找到全局最優(yōu)值。然而，這種搜索方案十分消耗計(jì)算資源和時(shí)間，特別是需要調(diào)優(yōu)的超參數(shù)比較多的時(shí)候。因此在實(shí)際應(yīng)用中，網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長(zhǎng)，來(lái)尋找全局最優(yōu)值可能的位置；然后會(huì)逐漸縮小搜索范圍和步長(zhǎng)，來(lái)尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量，但由于目標(biāo)函數(shù)一般是非凸的，所以很可能會(huì)錯(cuò)過(guò)全局最優(yōu)值。

2、隨機(jī)搜索

隨機(jī)搜索的思想與網(wǎng)格搜索比較相似，只是不再測(cè)試上界和下界之間的所有值，而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是，如果樣本點(diǎn)集足夠大，那么通過(guò)隨機(jī)采樣也能大概率地找到全局最優(yōu)值，或其近似值。隨機(jī)搜索一般會(huì)比網(wǎng)格搜索要快一些，但是和網(wǎng)格搜索的快速版一樣，它的結(jié)果也是沒法保證的。

3、貝葉斯優(yōu)化算法

貝葉斯優(yōu)化算法在尋找最優(yōu)最值參數(shù)時(shí)，采用了與網(wǎng)格搜索、隨機(jī)搜索完全不同的方法。網(wǎng)格搜索和隨機(jī)搜索在測(cè)試一個(gè)新點(diǎn)時(shí)，會(huì)忽略前一個(gè)點(diǎn)的信息，而貝葉斯優(yōu)化算法則充分利用了之前的信息。貝葉斯優(yōu)化算法通過(guò)對(duì)目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí)，找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。具體來(lái)說(shuō)，它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是，先根據(jù)先驗(yàn)分布，假設(shè)一個(gè)搜集函數(shù)，然后，每一次使用新的采樣點(diǎn)來(lái)測(cè)試目標(biāo)函數(shù)時(shí)，利用這個(gè)信息來(lái)更新目標(biāo)函數(shù)的先驗(yàn)分布；最后，算法測(cè)試由后驗(yàn)分布給出的全局最優(yōu)值最可能出現(xiàn)的位置的點(diǎn)。

7、過(guò)擬合欠擬合

在模型評(píng)估與調(diào)整的過(guò)程中，我們往往會(huì)遇到“過(guò)擬合”或“欠擬合”的情況。如何有效地識(shí)別過(guò)擬合和欠擬合現(xiàn)象，并有針對(duì)性地進(jìn)行模型調(diào)整，是不斷改進(jìn)機(jī)器學(xué)習(xí)模型的關(guān)鍵。

7.1、在模型評(píng)估過(guò)程中，過(guò)擬合和欠擬合具體是指什么現(xiàn)象？

我的回答：

1、過(guò)擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能良好而在測(cè)試集上性能較差。這意味著模型學(xué)到了一些訓(xùn)練集具有而測(cè)試集不具有的特征，而我們關(guān)注的是數(shù)據(jù)總體都具有的普適性特征，因此稱模型產(chǎn)生了過(guò)擬合。

2、欠擬合表現(xiàn)在模型評(píng)估中即模型在訓(xùn)練集上性能較差而在測(cè)試集上性能也較差。這意味著模型連訓(xùn)練集的數(shù)據(jù)都沒有學(xué)好，導(dǎo)致模型未捕捉到足夠的數(shù)據(jù)中的有效特征。

參考答案：

過(guò)擬合是指模型對(duì)于訓(xùn)練數(shù)據(jù)擬合呈過(guò)當(dāng)?shù)那闆r，反映到評(píng)估指標(biāo)上，就是模型在訓(xùn)練集上的表現(xiàn)很好，但在測(cè)試集和新數(shù)據(jù)上的表現(xiàn)較差。欠擬合指的是模型在訓(xùn)練和預(yù)測(cè)時(shí)表現(xiàn)都不好的情況。

7.2、能否說(shuō)出幾種降低過(guò)擬合和欠擬合風(fēng)險(xiǎn)的方法？

我的回答：

1、針對(duì)過(guò)擬合：

1）正則化方法。約束模型的復(fù)雜度，避免過(guò)強(qiáng)的模型學(xué)到訓(xùn)練集中不重要的特征。

2）增加訓(xùn)練集數(shù)據(jù)量。模型過(guò)擬合是因?yàn)閷W(xué)到了訓(xùn)練數(shù)據(jù)中的噪聲或不重要的特征，數(shù)據(jù)量變多可以降低過(guò)擬合的風(fēng)險(xiǎn)。

2、針對(duì)欠擬合：

采用更復(fù)雜的模型。欠擬合通常是由模型表達(dá)能力不足導(dǎo)致的，因此發(fā)生欠擬合時(shí)應(yīng)考慮使用表達(dá)能力更強(qiáng)的模型來(lái)進(jìn)行學(xué)習(xí)。

參考答案：

1、降低“過(guò)擬合”風(fēng)險(xiǎn)的方法：

1）從數(shù)據(jù)入手，獲得更多的訓(xùn)練數(shù)據(jù)。使用更多的訓(xùn)練數(shù)據(jù)是解決過(guò)擬合問(wèn)題最高效的手段，因?yàn)楦嗟臉颖灸軌蜃屇Ｐ蛯W(xué)習(xí)到更多更高效的特征，減小噪聲的影響。

2）降低模型復(fù)雜度。在數(shù)據(jù)較少時(shí)模型過(guò)于復(fù)雜是產(chǎn)生過(guò)擬合的主要因素，適當(dāng)降低模型復(fù)雜度可以避免模型擬合過(guò)多的采樣噪聲。例如，在神經(jīng)網(wǎng)絡(luò)模型中減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元個(gè)數(shù)等；在決策樹模型中降低樹的深度、進(jìn)行剪枝等。

3）正則化方法。給模型的參數(shù)加上一定的正則約束，比如將權(quán)值的大小加入到損失函數(shù)中。

4）集成學(xué)習(xí)方法。集成學(xué)習(xí)是把多個(gè)模型集成在一起，來(lái)降低單一模型的過(guò)擬合風(fēng)險(xiǎn)，如 Bagging方法。

2、降低“欠擬合”風(fēng)險(xiǎn)的方法：

1）添加新特征。當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí)，模型容易出現(xiàn)欠擬合。通過(guò)挖掘“上下文特征”、“ ID 類特征”、“組合特征”等新的特征，往往能夠取得更好的效果。在深度學(xué)習(xí)潮流中，有很多模型可以幫助完成特征工程，如因子分解機(jī)、梯度提升決策樹、Deep-crossing等都可以成為豐富特征的方法。

2）增加模型復(fù)雜度。簡(jiǎn)單模型的學(xué)習(xí)能力較差，通過(guò)增加模型的復(fù)雜度可以便模型擁高更強(qiáng)的擬合能力。例如，在線性模型中添加高次項(xiàng)，在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。

3）減小正則化系數(shù)。正則化是用來(lái)防止過(guò)擬合的，但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí)，則需要高針對(duì)性地減小正則化系數(shù)。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

葫蘆書第二章——模型評(píng)估

葫蘆書第二章——模型評(píng)估

1、評(píng)估指標(biāo)的局限性

1.1、準(zhǔn)確率這一指標(biāo)有何局限性？

1.2、為什么要權(quán)衡精確率與召回率？如何權(quán)衡？

2、ROC曲線

2.1、什么是ROC曲線？

2.2、如何繪制ROC曲線？

2.3、如何計(jì)算AUC?

2.4、ROC曲線相比P-R曲線有什么特點(diǎn)？

3、余弦距離的應(yīng)用

3.1、為什么在一些場(chǎng)景中要使用余弦距離而不是歐氏距離？

3.2、余弦距離是否是一個(gè)嚴(yán)格定義的距離？

4、A/B測(cè)試的陷阱

4.1、在對(duì)模型避行過(guò)充分的離線評(píng)估之后，為什么還要進(jìn)行在線A/B測(cè)試？

4.2、如何進(jìn)行線上的A/B測(cè)試？

5、模型評(píng)估的方法

5.1、在模型評(píng)估中，有哪些主要的驗(yàn)證方法，它們的優(yōu)缺點(diǎn)是什么？

5.2、在自助法的采樣過(guò)程中，對(duì) $n$ 個(gè)樣本進(jìn)行 $n$ 次自助抽樣，當(dāng) $n$ 趨于無(wú)窮大時(shí)，最終有多少數(shù)據(jù)從未被選擇過(guò)？

6、超參數(shù)調(diào)優(yōu)

6.1、超參數(shù)有哪些調(diào)優(yōu)方法？

7、過(guò)擬合欠擬合

7.1、在模型評(píng)估過(guò)程中，過(guò)擬合和欠擬合具體是指什么現(xiàn)象？

7.2、能否說(shuō)出幾種降低過(guò)擬合和欠擬合風(fēng)險(xiǎn)的方法？

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

葫蘆書第二章——模型評(píng)估

1、評(píng)估指標(biāo)的局限性

1.1、準(zhǔn)確率這一指標(biāo)有何局限性？

1.2、為什么要權(quán)衡精確率與召回率？如何權(quán)衡？

2、ROC曲線

2.1、什么是ROC曲線？

2.2、如何繪制ROC曲線？

2.3、如何計(jì)算AUC?

2.4、ROC曲線相比P-R曲線有什么特點(diǎn)？

3、余弦距離的應(yīng)用

3.1、為什么在一些場(chǎng)景中要使用余弦距離而不是歐氏距離？

3.2、余弦距離是否是一個(gè)嚴(yán)格定義的距離？

4、A/B測(cè)試的陷阱

4.1、在對(duì)模型避行過(guò)充分的離線評(píng)估之后，為什么還要進(jìn)行在線A/B測(cè)試？

4.2、如何進(jìn)行線上的A/B測(cè)試？

5、模型評(píng)估的方法

5.1、在模型評(píng)估中，有哪些主要的驗(yàn)證方法，它們的優(yōu)缺點(diǎn)是什么？

5.2、在自助法的采樣過(guò)程中，對(duì)個(gè)樣本進(jìn)行次自助抽樣，當(dāng)趨于無(wú)窮大時(shí)，最終有多少數(shù)據(jù)從未被選擇過(guò)？

6、超參數(shù)調(diào)優(yōu)

6.1、超參數(shù)有哪些調(diào)優(yōu)方法？

7、過(guò)擬合欠擬合

7.1、在模型評(píng)估過(guò)程中，過(guò)擬合和欠擬合具體是指什么現(xiàn)象？

7.2、能否說(shuō)出幾種降低過(guò)擬合和欠擬合風(fēng)險(xiǎn)的方法？

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

5.2、在自助法的采樣過(guò)程中，對(duì) $n$ 個(gè)樣本進(jìn)行 $n$ 次自助抽樣，當(dāng) $n$ 趨于無(wú)窮大時(shí)，最終有多少數(shù)據(jù)從未被選擇過(guò)？