香農熵
熵考察(香農熵)的是單個的信息(分布)的期望:反映了一個系統的無序化(有序化)程度,一個系統越有序,信息熵就越低,反之就越高。
交叉熵
交叉熵考察的是兩個的信息(分布)的期望:
交叉熵和熵,相當于,協方差和方差
相對熵
相對熵考察兩個信息(分布)之間的不相似性:
所謂相對,自然在兩個隨機變量之間。又稱互熵,Kullback–Leibler divergence(K-L 散度)等。設p(x)和q(x)是X取值的兩個概率分布,則p對q的相對熵為:
在一定程度上,熵可以度量兩個隨機變量的距離。KL 散度是兩個概率分布 P 和 Q 差別的非對稱性的度量。KL 散度是用來度量使用基于 Q 的編碼來編碼來自 P 的樣本平均所需的額外的位元數。
典型情況下,P 表示數據的真實分布,Q 表示數據的理論分布,模型分布,或 P 的近似分布。
相對熵的性質,相對熵(KL散度)有兩個主要的性質。如下
(1)盡管 KL 散度從直觀上是個度量或距離函數,但它并不是一個真正的度量或者距離,因為它不具有對稱性,即
(2)相對熵的值為非負值,即
三者之間的關系:
簡森不等式與 KL散度:
因為?lnx是凸函數,所以滿足,凸函數的簡森不等式的性質:
這里我們令f(?)=?lnx,則其是關于x的凸函數,因此:
也即 KL 散度恒大于等于 0;
聯合熵
聯合熵:(X,Y)在一起時的不確定性度量
條件熵
條件熵:? ? X確定時,Y的不確定性度量
? ? ? ? ? ? ? 在X發生是前提下,Y發生新帶來的熵。
聯系:
?
如果是回歸問題的,使用平方損失函數。分類問題建議使用交叉熵損失,用平方損失會出現如下問題:在誤差較大時,損失函數比較平坦,更新較慢,還會出現梯度為0的情況,期望的情況是訓練完成時,到達某個極值點,這時梯度為0,所以就沒辦法判斷訓練是否完成了。交叉熵損失就不會出現這種情況,在遠離目標的時候,曲線比較陡峭。
來源:http://blog.csdn.net/lanchunhui/article/details/50970625
? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/53365438
? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/51277608
? ? ? ? ? http://www.cnblogs.com/little-YTMM/p/5582271.html