KL Divergence

relative entropy
衡量兩個概率分布的散度probability distributions diverges
for discrete probability distributions

image.png

for continuous random variable

image.png

從字面意思來看呢,是一種距離,但是實際上和我們理解的“距離”并不一樣。我們常規理解的距離一般來說有幾點性質:
1.非負:距離是絕對值,非負好理解。
2.對稱:從A到B的距離 = 從B到A的距離
3.勾股定理:兩邊之和大于第三邊
而KL的性質只滿足第一點非負性,不滿足對稱性和勾股定理。

# KL divergence (and any other such measure) expects the input data to have a sum 1
1.import numpy as np
def KL(a, b): 
    a = np.array(a, dtype=np.float) 
    b = np.array(b, dtype=np.float) 
    return np.sum(np.where(a!=0, a*np.log(a/b), 0)) 
# np.log(a / (b + np.spacing(1))) np.spacing等價于inf
2. scipy.stats.entropy(pk, qk=None, base=None)
當qk != None時計算KL Divergence
automatically normalize x,y to have sum = 1

application:
text similarity, 先統計詞頻,然后計算kl divergence
用戶畫像

reference:
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
http://www.cnblogs.com/charlotte77/p/5392052.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 在GAN的相關研究如火如荼甚至可以說是泛濫的今天,一篇新鮮出爐的arXiv論文《Wasserstein GAN》卻...
    MiracleJQ閱讀 2,259評論 0 8
  • KL距離,是Kullback-Leibler差異(Kullback-Leibler Divergence)的簡稱,...
    keaidelele閱讀 9,377評論 0 48
  • abbreviation 簡寫符號;簡寫 absolute error 絕對誤差 absolute value 絕...
    滄海一睹閱讀 4,200評論 0 2
  • 和川壩 苗壯 勁風拂發吹流年,霜寒凝水曠春巖。 萎黃山...
    苗老師雜談閱讀 468評論 2 0
  • 聽弦斷,斷那三千癡纏。墜花湮,湮沒一朝風漣。花若憐,落在誰的指尖。晨曦微露,說是尋常風月,等閑談笑間,其實滿溢著...
    用他的歌閱讀 679評論 2 11