前言
從上一篇PGM(Probabilistic Graphical Models)系列--1.基礎文章中我們就可以初步窺見一些PGM的內(nèi)容。我也是十分艱難的在很多很多篇的博客中掙扎過來,才漸漸的覺得了解PGM是個什么東西以及一些相關概念。
順便膜拜一下 ML領域的大佬吳恩達 的博導 Michael I. Jordan的slides,基本上我看的網(wǎng)上的所有博客的內(nèi)容或多或少都來自于這個slides。
今天主要講一下其中比較簡單的一類,有向圖,一般也叫作貝葉斯網(wǎng)絡(Bayesian network)。
貝葉斯網(wǎng)絡
從貝葉斯方法談到貝葉斯網(wǎng)絡
偷懶系列發(fā)現(xiàn)的講得比較靠譜的貝葉斯網(wǎng)絡的文章,但是其中關于條件獨立的情況還是沒說清楚。并且前后的邏輯不通順,銜接不是很好。
關于條件獨立的內(nèi)容可以見下面funny thing里面的例子。
但基本的內(nèi)容都有說到。
樸素貝葉斯分類器與貝葉斯網(wǎng)絡
ML里面的樸素貝葉斯分類器其實也是一種貝葉斯網(wǎng)絡,而且是一種十分理想的貝葉斯網(wǎng)絡。
樸素貝葉斯分類器就是簡單的假設各個變量/特征間相互獨立,而label或者說class決定了它的特征。在訓練的過程中,去建立這個網(wǎng)絡中各個節(jié)點的概率表。然后是由于觀測到的即下層X1,X2...去計算class歸類的可能性。
所以等價來說
樸素貝葉斯分類器的訓練-->以上圖的模型為基礎,計算概率表
樸素貝葉斯分類器的預測-->以完整的含概率表的上圖,進行聯(lián)合概率(joint probability)的計算。
計算的規(guī)則也按照PGM的inference的結果可以得到結果,即
其中很多地方都不會把每個特征的取值的等號給寫出來,從而給初學者造成了許多的混淆,因為實際操作中,他們在概率表中是需要知道取哪一行與哪一列的值的。那么根據(jù)上面這個公式希望可以讓大家清晰的明白一點。
注意連乘里面的前后關系。訓練得到的應該是Class下的各特征取值的頻率。
其它更為復雜的貝葉斯網(wǎng)絡
我們圍繞下圖說明一些在貝葉斯網(wǎng)絡中會遇到的很神奇的事情以及其原因,從而加深各位的理解。這些例子主要都是從該textbook中翻譯所得。 下圖有個地方下錯了,我用紅色的顏色改正過來了。
這個圖的聯(lián)合概率大家可以自己嘗試寫一下。
Funny thing
下圖的概率的值大家可以自己計算一下。我這里也有一個程序可以給大家使用。(但我寫的不是很user friendly...我自己用是可以的)
PGM
- 小明同學如果在不考慮其它情況下,在這個模型下的拿到推薦信的概率接近一半。
- 但如果考慮了他智商不高...則幾率下降了
- 但又考慮課程的難度是比較簡單的,則幾率又上升到了接近一半。(大概意思是,如果課程簡單,那即使他智商不高也是可以在這個課程上拿到好的grade,從而拿到教授的推薦信。)
這從主觀上來看,是非常合理的,這也側面證明了這個模型的完整性對結果的幫助很大。
這個時候如果你是一個招聘官。那你看的角度又不一樣了。
- 成績拿C的情況下,還高智商的幾率非常低
- 拿不到推薦信的情況下,還高智商的幾率也不高
- 兩個因素加起來考慮時,幾率還是已知成績時的幾率。(這從側面說明了獨立和非獨立的關系,由于G和L是父子節(jié)點,如果已知父節(jié)點,則幾率就已經(jīng)決定)右邊的等式說明在已知這兩個因素的情況下,該門課比較難的幾率是62.9%
其實就是說給定G的情況下,L和其它節(jié)點都條件獨立。
- 如果換成比較高的SAT成績,情況就完全不一樣了。。。包括課程比較難的可能性更大。
插入的貝葉斯網(wǎng)絡中條件獨立的章節(jié)
從上面的例子中得到的啟示
- 給定G的情況下,L和其它節(jié)點都條件獨立。(只與父節(jié)點有關)
- 給定I的情況下,S與其它節(jié)點都條件獨立。
但上述兩個節(jié)點都是父子節(jié)點的關系。如果我們考慮的是G節(jié)點與誰在什么情況下條件獨立呢?
實際操作后發(fā)現(xiàn),如果我們認為只與父節(jié)點有關的話,那么上述的兩個結果應該是相等的。
所以說我們的結論是不完備的。
應該說 對每一個節(jié)點,給定它父節(jié)點的情況下,與任何非子孫節(jié)點條件獨立。
在這個圖內(nèi)的這些條件獨立的集合,也做局部Markov獨立
這么說來,其實我們就可以理解下面這段話(節(jié)選自 從貝葉斯方法談到貝葉斯網(wǎng)絡)
如果我們將剛剛的D,I合在一起考慮,則為a,接下來同理。則成為了這里的例子,由于我們恰恰想預測G的值,也就是在G未知的情況下,其父節(jié)點與其子節(jié)點之前是不獨立的,所以不能夠將對方約去仍保持一樣的聯(lián)合概率的值。