交叉熵 相對熵(KL散度/互熵)

香農熵

熵考察(香農熵)的是單個的信息(分布)的期望:反映了一個系統的無序化(有序化)程度,一個系統越有序,信息熵就越低,反之就越高。


交叉熵

交叉熵考察的是兩個的信息(分布)的期望:

交叉熵和熵,相當于,協方差和方差



相對熵

相對熵考察兩個信息(分布)之間的不相似性:

所謂相對,自然在兩個隨機變量之間。又稱互熵,Kullback–Leibler divergence(K-L 散度)等。設p(x)和q(x)是X取值的兩個概率分布,則p對q的相對熵為:


在一定程度上,熵可以度量兩個隨機變量的距離。KL 散度是兩個概率分布 P 和 Q 差別的非對稱性的度量。KL 散度是用來度量使用基于 Q 的編碼來編碼來自 P 的樣本平均所需的額外的位元數。

典型情況下,P 表示數據的真實分布,Q 表示數據的理論分布,模型分布,或 P 的近似分布。

相對熵的性質,相對熵(KL散度)有兩個主要的性質。如下

(1)盡管 KL 散度從直觀上是個度量或距離函數,但它并不是一個真正的度量或者距離,因為它不具有對稱性,即


(2)相對熵的值為非負值,即



三者之間的關系:


簡森不等式與 KL散度:


因為?lnx是凸函數,所以滿足,凸函數的簡森不等式的性質:

這里我們令f(?)=?lnx,則其是關于x的凸函數,因此:

也即 KL 散度恒大于等于 0;



聯合熵

聯合熵:(X,Y)在一起時的不確定性度量



條件熵

條件熵:? ? X確定時,Y的不確定性度量

? ? ? ? ? ? ? 在X發生是前提下,Y發生新帶來的熵。



聯系:


?

如果是回歸問題的,使用平方損失函數。分類問題建議使用交叉熵損失,用平方損失會出現如下問題:在誤差較大時,損失函數比較平坦,更新較慢,還會出現梯度為0的情況,期望的情況是訓練完成時,到達某個極值點,這時梯度為0,所以就沒辦法判斷訓練是否完成了。交叉熵損失就不會出現這種情況,在遠離目標的時候,曲線比較陡峭。




來源:http://blog.csdn.net/lanchunhui/article/details/50970625

? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/53365438

? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/51277608

? ? ? ? ? http://www.cnblogs.com/little-YTMM/p/5582271.html


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容