數(shù)學之美--信息的度量和作用--信息熵,條件熵和交叉熵

保留初心,砥礪前行

這一章節(jié)講解的是關(guān)于信息的某些度量。

我們常常說信息很多,或者信息較少,但卻很難說清楚信息到底有多少。......直到1948年,Shannon在他著名的論文“通信的數(shù)學原理”中提出了“信息熵”的概念,才解決了信息的度量問題,并且量化出信息的作用。

  • 信息熵

    首先,我們可以記住的是,信息熵一般使用符號H來表示,單位是比特。接下來,看一個書中給出的例子:
    當我錯過了上一屆世界杯的比賽,而想知道誰奪得冠軍時,我詢問一個知道比賽結(jié)果的觀眾。但是他并不愿意直接告訴我,而是讓我猜測,每猜一次他要收費1元來告訴我,我的猜測是否正確。那么我要花多少錢才能知道誰是冠軍呢?
    我可以把球隊編號,1到32號(當然大家都知道世界杯是32支球隊,然而過幾年變成48支的時候我會回來修改的)然后我提問:“是在1到16號中嗎?”。如果他告訴我猜對了,我會繼續(xù)問:“是在1到8號中嗎?”。這種詢問方式大家都懂,因此這樣詢問下去,只需要5次,也就是只需要5元錢就可以知道哪支球隊是冠軍。

    因此,世界杯冠軍這條消息的信息量可以看做是5元錢。
    我們回到數(shù)學上的問題,使用比特來代替錢的概念(計算機中,一個比特是一位二進制數(shù),一個字節(jié)就是8個比特),這條信息的信息量是5比特。如果有64支隊伍,就要多猜一次,也就是6比特。

    log232 = 5,log264 = 6

    以上是在所有隊伍的奪冠可能性相同的情況下的計算方法,一般化來說,對于任何一個隨機變量X,他的信息量,也就是信息熵如下:

    H(X) = -∑P(x)logP(x)

    變量X的不確定性越大,信息熵也就越大。也就是說,如果要把這件事搞清楚,所需要知道的信息量就越多。換句話說,信息熵就是信息的不確定性。

    可以結(jié)合世界杯的例子進行理解,參與的球隊越多,需要猜測的次數(shù)就越多,32到64支,奪冠的不確定性變大,猜測次數(shù)由5次到6次,信息熵也就越大。

  • 條件熵

    一個事物內(nèi)部會存在隨機性 ,也就是不確定性(信息熵),假定為U,而消除這個不確定性的唯一的辦法就是引入相關(guān)的信息I,并且引入的信息I要大于U才可以。如果I<U,則這些加入的信息只能消除一部分不確定性,不能完全消除不確定性:

    U' = U - I

    如果要證明為什么這些相關(guān)的信息可以消除信息的不確定性,為此要引入一個新的概念,條件熵。

    上文中講到了信息熵,在知道某個隨機變量X和它的隨機分布后,就可以計算得到它的信息熵。

    假設(shè)我們現(xiàn)在還知道另一個隨機變量Y的情況,包括它和X一起出現(xiàn)的概率,也就是X和Y的聯(lián)合概率分布;以及在Y取值的前提下,X的概率分布,也就是條件概率分布。則可以定義在Y的條件下的條件熵為:

    H(X|Y) = -∑P(x,y)logP(x|y)

    以上的條件熵可以理解為,在知道了某些信息Y之后,X的信息熵是多少。H(X) >= H(X|Y),因為在知道了一些Y的信息之后,X的信息熵比只知道X的情況下下降了。也就是說與X相關(guān)的信息Y,消除了信息X的不確定性。正如本節(jié)第一句話所言,相關(guān)的信息可以消除信息的不確定性。

  • 互信息

    Shannon在信息論中提出了互信息的概念作為兩個隨機事件相關(guān)性的量化度量。

    互信息就是表示兩個隨機事件的相關(guān)性。

    它有一個看上去不知所云的表達式I(X;Y) = ∑P(x,y)log(p(x,y)/(P(x)P(y)))

    上邊這個公式看看就好,接下來要理解的是:

    I(X;Y) = H(X) - H(X|Y)

    所謂的互信息,就是信息熵與條件熵相減。通俗來說,信息熵是要了解事件X所要知道的信息量(也就是X的不確定性),減去在知道了Y之后仍然不確定的事,就得到了知道Y后可以確定的關(guān)于X的信息,也就是X與Y的相關(guān)性。

    當X與Y完全相關(guān)時,I(X;Y) 為1;當他們完全不相關(guān)時,I(X;Y) 為0。其余情況取值在0和1之間。

  • 交叉熵(相對熵)

    前面已經(jīng)介紹了信息熵和互信息,它們是信息論的基礎(chǔ),而信息論則在自然語言處理中扮演著指導性的角色。
    交叉熵也用來衡量相關(guān)性,但和變量的互信息不同,它用來衡量兩個取值為正數(shù)的函數(shù)的相似性。

    互信息:X與Y的相關(guān)性,兩者是否有關(guān)系,有多少關(guān)系。
    交叉熵,X與Y的相似性,它們兩個是否相同。

    交叉熵的定義如下:

    KL(f(x)||g(x)) = ∑f(x)·log(f(x)/g(x))

    同時,存在以下三條結(jié)論:

    1. 對于兩個完全相同的函數(shù),它們的交叉熵等于0.
    2. 交叉熵越大,兩個函數(shù)差異越大;交叉熵越小,兩個函數(shù)差異越小。
    3. 對于概率分布或概率密度函數(shù),如果取值均大于0,交叉熵可以度量兩個隨機分布的差異性。(關(guān)于這條,大神們可以在評論區(qū)解釋一下嗎?)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容