貝葉斯決策
貝葉斯公式如下:
? 其中:p(Y)為先驗概率,表示每種類別分布的概率;P(X|Y):類條件概率,表示在某一類別情況下,某個事件發生的概率;而P(Y|X)為后驗概率,表示某事發生了,并且它屬于某一類別的概率。
? p(X)通??梢岳萌怕使角蟮?n為y的類別數):
? 這兩個公式大家應該都比較熟悉,這里舉個例子:已知:某個商店里的顧客中男性與女性的比例為2:1,男性購買商品的概率為1/2,而女性購買商品的概率為2/3。問題:假如有一個顧客在商店里買了商品,請問他的性別為男性或女性的概率分別是多少?
? 本題就是典型的某個事情被觀測到了,求它屬于某一類的概率。即為后驗概率,后面再來介紹什么是先驗概率和后驗概率。
? 設:x_1 = 購買商品,x_2 = 不購買商品,y_1 = 男性,y_2 = 女性
? 由題意可得:
假設男性和女性購買商品是相互獨立的,可以由全概率公式計算p(x_1):
根據貝葉斯公式可以計算出:
所以,如果這個人購買了商品,那么他是男性的概率為3/5。
? 拿這個例子來解釋下先驗和后驗,先驗表示的是以往的經驗,是從經驗中獲取的概率,比如拋硬幣,即使我們一次都沒有拋,我們仍然約定出現正面的概率為1/2,這就是先驗概率。而后驗概率是在某些事件發生了的情況下,通過這個發生的事件去重新估計原來的概率,比如上題,顧客中男女的比例是2:1,這個概率就是先驗概率,是從以往的經驗(或者顧客訪問數據)得到的,如果沒有任何事情發生的情況下,問一個顧客進店后他是男性還是女性的概率,就可以說男性的概率為2/3,但是現在發生一個事件,就是這個顧客他買了商品,這時候,顧客是哪個性別的概率就發生了改變,這個改變后的概率就是后驗概率,通過貝葉斯公式,我們可以計算出這個后驗概率。
? 以上只是一個簡單的例子來說明貝葉斯公式的應用,那么從這個例子我們延伸到書中復雜的公式呢?我們再看下面一個例子:
? 表格中的訓練數據X表示特征變量(這里舉例只有一個特征,n個特征類似),取值集合為{1,0},Y為類標記,
使用該數據集來學習一個樸素貝葉斯分類器,并確定 **x=1** 時的類標記。
? 你可能覺得這和書上的例4.1很相似,并且更為簡單,但是你要是細心的話,你會發現,這個數據和上面的例題數據一樣。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
X | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 1 |
Y | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
我們計算先驗概率
和類條件概率
你看,要求x=1的情況下,y=0或者1的概率,是不和上面例題一模一樣?
使用例子學習樸素貝葉斯分類器也就是利用已知數據通過統計獲得先驗概率,再計算出類條件概率,從而給出新的事件X時,來估計其后驗概率P(Y|x)。
? 補充:這里會有一個問題,比如某個特征條件的值或某個類別缺失,會導致計算出的概率為0,這點書中有提到。這很好理解,由于數據不充分,導致有一些先驗概率缺失(經驗不足),這樣在出現這些事件時來預測后驗概率,系統就無法做出決策。
? 那么怎么解決這個問題呢?我就拿類別信息缺失的情況下來簡單說明一下。比如Y的取值為{1,2,3,4,5,6},但是我們搜集到的數據只包含了{1,2,4,5,6},這里根據剛才我們的學習方法,就無法得到p(y=3),這時我們不用像剛才一樣去統計數據來估計Y的先驗概率(因為得不完全),而我們可以給Y確定一個先驗概率分布,比如Dirichlet分布,即:
? 而通常情況下的情況最符合實際,也就是先驗概率最大,可以令其
,
? 有了這個先驗概率,我們就可以用上面例題講到的貝葉斯估計來計算Y的后驗分布,取最大的后驗概率就可以估計出我們想要的先驗概率貝葉斯估計P(Y),也就是書中所描述的:
? 具體的計算過程就不詳細描述了,就是使用貝葉斯公式計算后驗概率,和上面例題的計算過程實際上是一樣。
? 這里可能大家會看的比較暈乎,實際上所謂的先驗和后驗是相對的,比如我們預先規定P(Y=y)~Dirichlet分布,這是先驗的,而在已知訓練數據發生的情況下,用貝葉斯公式去估計
的真實概率,這里這個
在這時稱為后驗概率,因為他是由訓練數據發生的情況下對先驗的Dirichlet分布進行更新后的概率。但是當我們在使用這個概率對新的數據進行預測時,這個概率實際上就是先驗的概率分布了。