美女mm131爽爽爽,欧洲精品无码一区二区三区,精品欧美无人区乱码毛片

交叉熵代價函數（Cross-entropy cost function）是用來衡量人工神經網絡（ANN）的預測值與實際值的一種方式。與二次代價函數相比，它能更有效地促進ANN的訓練。在介紹交叉熵代價函數之前，本文先簡要介紹二次代價函數，以及其存在的不足。

二次代價函數的不足

ANN的設計目的之一是為了使機器可以像人一樣學習知識。人在學習分析新事物時，當發現自己犯的錯誤越大時，改正的力度就越大。比如投籃：當運動員發現自己的投籃方向離正確方向越遠，那么他調整的投籃角度就應該越大，籃球就更容易投進籃筐。同理，我們希望：ANN在訓練時，如果預測值與實際值的誤差越大，那么在反向傳播訓練的過程中，各種參數調整的幅度就要更大，從而使訓練更快收斂。然而，如果使用二次代價函數訓練ANN，看到的實際效果是，如果誤差越大，參數調整的幅度可能更小，訓練更緩慢。

以一個神經元的二類分類訓練為例，進行兩次實驗（ANN常用的激活函數為sigmoid函數，該實驗也采用該函數）：輸入一個相同的樣本數據x=1.0（該樣本對應的實際分類y=0）；兩次實驗各自隨機初始化參數，從而在各自的第一次前向傳播后得到不同的輸出值，形成不同的代價（誤差）：

圖片.png

實驗1：第一次輸出值為0.82

image

實驗2：第一次輸出值為0.98
在實驗1中，隨機初始化參數，使得第一次輸出值為0.82（該樣本對應的實際值為0）；經過300次迭代訓練后，輸出值由0.82降到0.09，逼近實際值。而在實驗2中，第一次輸出值為0.98，同樣經過300迭代訓練，輸出值只降到了0.20。

從兩次實驗的代價曲線中可以看出：實驗1的代價隨著訓練次數增加而快速降低，但實驗2的代價在一開始下降得非常緩慢；直觀上看，初始的誤差越大，收斂得越緩慢。

其實，誤差大導致訓練緩慢的原因在于使用了二次代價函數。二次代價函數的公式如下：

圖片.png

如圖所示，實驗2的初始輸出值（0.98）對應的梯度明顯小于實驗1的輸出值（0.82），因此實驗2的參數梯度下降得比實驗1慢。這就是初始的代價（誤差）越大，導致訓練越慢的原因。與我們的期望不符，即：不能像人一樣，錯誤越大，改正的幅度越大，從而學習得越快。

可能有人會說，那就選擇一個梯度不變化或變化不明顯的激活函數不就解決問題了嗎？圖樣圖森破，那樣雖然簡單粗暴地解決了這個問題，但可能會引起其他更多更麻煩的問題。而且，類似sigmoid這樣的函數（比如tanh函數）有很多優點，非常適合用來做激活函數，具體請自行google之

圖片.png

說起交叉熵損失函數「Cross Entropy Loss」，腦海中立馬浮現出它的公式：

image

我們已經對這個交叉熵函數非常熟悉，大多數情況下都是直接拿來使用就好。但是它是怎么來的？為什么它能表征真實樣本標簽和預測概率之間的差值？上面的交叉熵函數是否有其它變種？也許很多朋友還不是很清楚！沒關系，接下來我將盡可能以最通俗的語言回答上面這幾個問題。

1. 交叉熵損失函數的數學原理

我們知道，在二分類問題模型：例如邏輯回歸「Logistic Regression」、神經網絡「Neural Network」等，真實樣本的標簽為 [0，1]，分別表示負類和正類。模型的最后通常會經過一個 Sigmoid 函數，輸出一個概率值，這個概率值反映了預測為正類的可能性：概率越大，可能性越大。

Sigmoid 函數的表達式和圖形如下所示：