title: 樸素貝葉斯分類算法
date: 2016-10-07 19:30:29
comments: true
categories: 算法
tags: 分類算法
樸素貝葉斯簡介
??樸素貝葉斯是貝葉斯分類中最簡單的一類,要求必須事先已知樣本總體能夠分為幾類。它首先根據訓練樣本的分類分布情況,得出先驗概率。然后利用貝葉斯公式,得到后驗概率,從而對對整個的待分類集合進行分類,其分類依據是將待分類集合中的元素分類到最可能的那種類別。
貝葉斯公式
??基于貝葉斯公式的分類算法很多,樸素貝葉斯的應用極為廣泛。但是,它也有其缺陷,因為它要求待分類集合的屬性獨立,因此這種方法在有些特征屬性之間關系比較復雜的情況下,往往不能表現出良好的性能。在這里給出貝葉斯的數學公式和解讀:
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
向來數學公式是裝逼利器(<small>當然上面這個比較簡單除外</small>),下面對這個公式做解讀。$P(A|B)$是A對B的條件概率,也就是在事件B發生的情況下,事件A發生的概率,實際上等于$\frac{P(AB)}{P(B)}$。分子上根據條件概率的公式展開即可。這個公式比較簡單就不贅述了。但是它在統計學中分量很重,可以通俗的表示為:
$$后驗概率=\frac{似然度.先驗概率}{標準化常量}$$
如果我們把上述的A當作已知分類集合Y,把B當作待分類集合X。那么可以看出利用已知分類集合Y(用機器學習的術語來表述就是訓練樣本集合Y可以求得先驗概率,然后通過待分類樣本求得似然度和標準化常量,最后得到分類的后驗概率,取其最大值,設定為待分類樣本所屬的類。其實貝葉斯公式在這里主要是給我們提供了一個分類器供我們使用。
樸素貝葉斯分類的原理
??其實上面說了那么多,估計還是云里霧里的,舉個例子就明白了,因為我們每個人在平常的生活中都會發揮分類的作用。比如說,你來到了一所高中,突然你的面前出現了一個身長2米的同學,你肯定會對其進行判斷,如果把判斷的方面限制到,判斷這個同學是什么運動隊的。你的第一反應就是這個人肯定是籃球隊的。在這里先驗條件就是,高個子的學生打籃球的幾率可能比較大,這里的待分類樣本其實是這名同學的身高。這個例子菜的摳腳,原諒博主神一般的腦回路,實在想不起更有趣的例子。當然,這名同學有可能不是,如果人家喜歡繡花,你也不能攔著人家。其實說了這么多,就是告訴我們,貝葉斯估計能夠結合先驗概率和樣本的似然程度對樣本進行分類,這就大大提高了分類的準確程度,并且在數據量很大的時候,樸素貝葉斯展現了它的強大。
??下面給出樸素貝葉斯分類的正式定義:
1. 設存在待分類項$x= \lbrace a_1,a_2,a_3,...,a_n \rbrace $ ,其中$a_i$表示的是待分類樣本的特征屬性,在此處假定他們獨立。
2. 同時已知分類集合$C= \lbrace y_1,y_2,y_3,...,y_n \rbrace $。
3. 分別計算$P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x)$的條件概率。
4. $P(y_d|x) = max \lbrace P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x) \rbrace$,也就是將樣本x歸類于可能行最大的分類y中。
??我們來尋找整個分類過程中的已知量和未知量。
1. 待分類項也就是待分類的樣本集合中的樣本。
2. 已知分類集合,可以通過訓練樣本結合進行訓練和提取。
3. 根據貝葉斯公式:
$$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$$
要求左邊,只需要求出右邊,在右邊的分式中,分母是常數,因為當測試樣本確定之后$P(x)$也就確定了,只需要求出分母的最大值就可以確定待分類項的所屬分類。又因為分類項$x$中的特征屬性獨立。可得:
$$ P(x|y_i) P(y_i) = P(a_1|y_i)P(a_2|y_i)...P(a_n|y_i)P(y_i)=P(y_i) \prod^n_jP(a_j|y_i) $$
所以就求所有特征屬性在分類確定的情況下的似然度的連乘和分類本身在訓練樣本中所占概率做乘積。其中的最大值就是我們所求的結果,最大值所對應的分類就是待分類項的類別。在這里,我所實驗的樣本是離散的,所以只需要求得每個分類和每個分類的屬性在訓練樣本中的頻數就可以確定先驗概率,然后求出測試樣本中在分類確定的情況下,各個特征屬性出現的頻數就可以確定似然度,當然出現的頻數越大似然度也就越大,從而就可以進行分類。
??下面給出整個樸素貝葉斯分類的流程圖:
可以看到,整個樸素貝葉斯分類分為三個階段:
??第一階段——準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。
??第二階段——分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。
??第三階段——應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。
樣本特征屬性選擇和數據處理
特征屬性選擇
??在文章的開頭就已經說明,樸素貝葉斯算法,人為的限制所有樣本的特征屬性獨立。所以在選擇特征屬性的時候,應當注意選擇權重較大,獨立性較高的屬性來作為特征屬性。
拉普拉斯校準
??細心閱讀上面的內容,會發現如果一個待測樣本的某一個特征屬性在某個分類上出現的次數為0時,它將會導致整個分子的乘積為0,這有可能導致就算待測樣本在其他屬性上與一個已知分類一模一樣,也不會被劃分到該類。因此會大大降低整個分類的效果。與此同時,這種情況在現實生活中也是不被允許的。舉個例子,就比如你今天穿了紅上衣和媽媽打完招呼之后,高高興興的去上學,然后放學回家的路上掉到了水坑里,回家之后不得不換了一件黑上衣。此時你母親再看到你的時候,不能因為你是黑上衣,就說你不是她的孩子。從機器學習的角度看,她會降低上衣顏色這個屬性的權重,通過對其他屬性的評估來確認。當然這個例子也不是太好,比較極端,但是它確實說明了問題的嚴重性。
??因此,需要我們對整個數據進行處理。在這里的表現就是拉普拉斯校準。也就是當一個屬性在分類中出現的詞頻是0的時候,我默認其為1,當然其他的樣本的個數都要加1.相應的1變成2,2變成3。這樣的話,保證了分子不為0,而且在數據量很大的情況下,它并不會影響結果。所以利用拉普拉斯校準解決了這個問題。
總結
??樸素貝葉斯算法能夠很好的完成分類工作,但是它人為強加的條件限制了它的使用場景。我在Hadoop下利用MapReduce實現了樸素貝葉斯算法,確實能夠達到不錯分類效果。如果有讀者需要程序,可以發送郵件給我。希望各位讀者對文章中出現的問題和錯誤進行斧正,歡迎大家一起探討相關方面的問題