樸素貝葉斯分類算法


title: 樸素貝葉斯分類算法
date: 2016-10-07 19:30:29
comments: true
categories: 算法
tags: 分類算法


樸素貝葉斯簡介

??樸素貝葉斯是貝葉斯分類中最簡單的一類,要求必須事先已知樣本總體能夠分為幾類。它首先根據訓練樣本的分類分布情況,得出先驗概率。然后利用貝葉斯公式,得到后驗概率,從而對對整個的待分類集合進行分類,其分類依據是將待分類集合中的元素分類到最可能的那種類別。

貝葉斯公式

??基于貝葉斯公式的分類算法很多,樸素貝葉斯的應用極為廣泛。但是,它也有其缺陷,因為它要求待分類集合的屬性獨立,因此這種方法在有些特征屬性之間關系比較復雜的情況下,往往不能表現出良好的性能。在這里給出貝葉斯的數學公式和解讀:
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
向來數學公式是裝逼利器(<small>當然上面這個比較簡單除外</small>),下面對這個公式做解讀。$P(A|B)$是A對B的條件概率,也就是在事件B發生的情況下,事件A發生的概率,實際上等于$\frac{P(AB)}{P(B)}$。分子上根據條件概率的公式展開即可。這個公式比較簡單就不贅述了。但是它在統計學中分量很重,可以通俗的表示為:
$$后驗概率=\frac{似然度.先驗概率}{標準化常量}$$
如果我們把上述的A當作已知分類集合Y,把B當作待分類集合X。那么可以看出利用已知分類集合Y(用機器學習的術語來表述就是訓練樣本集合Y可以求得先驗概率,然后通過待分類樣本求得似然度和標準化常量,最后得到分類的后驗概率,取其最大值,設定為待分類樣本所屬的類。其實貝葉斯公式在這里主要是給我們提供了一個分類器供我們使用。

樸素貝葉斯分類的原理

??其實上面說了那么多,估計還是云里霧里的,舉個例子就明白了,因為我們每個人在平常的生活中都會發揮分類的作用。比如說,你來到了一所高中,突然你的面前出現了一個身長2米的同學,你肯定會對其進行判斷,如果把判斷的方面限制到,判斷這個同學是什么運動隊的。你的第一反應就是這個人肯定是籃球隊的。在這里先驗條件就是,高個子的學生打籃球的幾率可能比較大,這里的待分類樣本其實是這名同學的身高。這個例子菜的摳腳,原諒博主神一般的腦回路,實在想不起更有趣的例子。當然,這名同學有可能不是,如果人家喜歡繡花,你也不能攔著人家。其實說了這么多,就是告訴我們,貝葉斯估計能夠結合先驗概率和樣本的似然程度對樣本進行分類,這就大大提高了分類的準確程度,并且在數據量很大的時候,樸素貝葉斯展現了它的強大。

??下面給出樸素貝葉斯分類的正式定義:
1. 設存在待分類項$x= \lbrace a_1,a_2,a_3,...,a_n \rbrace $ ,其中$a_i$表示的是待分類樣本的特征屬性,在此處假定他們獨立。
2. 同時已知分類集合$C= \lbrace y_1,y_2,y_3,...,y_n \rbrace $。
3. 分別計算$P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x)$的條件概率。
4. $P(y_d|x) = max \lbrace P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x) \rbrace$,也就是將樣本x歸類于可能行最大的分類y中。

??我們來尋找整個分類過程中的已知量和未知量。
1. 待分類項也就是待分類的樣本集合中的樣本。
2. 已知分類集合,可以通過訓練樣本結合進行訓練和提取。
3. 根據貝葉斯公式:
$$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$$
要求左邊,只需要求出右邊,在右邊的分式中,分母是常數,因為當測試樣本確定之后$P(x)$也就確定了,只需要求出分母的最大值就可以確定待分類項的所屬分類。又因為分類項$x$中的特征屬性獨立。可得:
$$ P(x|y_i) P(y_i) = P(a_1|y_i)P(a_2|y_i)...P(a_n|y_i)P(y_i)=P(y_i) \prod^n_jP(a_j|y_i) $$
所以就求所有特征屬性在分類確定的情況下的似然度的連乘和分類本身在訓練樣本中所占概率做乘積。其中的最大值就是我們所求的結果,最大值所對應的分類就是待分類項的類別。在這里,我所實驗的樣本是離散的,所以只需要求得每個分類和每個分類的屬性在訓練樣本中的頻數就可以確定先驗概率,然后求出測試樣本中在分類確定的情況下,各個特征屬性出現的頻數就可以確定似然度,當然出現的頻數越大似然度也就越大,從而就可以進行分類。

??下面給出整個樸素貝葉斯分類的流程圖:

image

可以看到,整個樸素貝葉斯分類分為三個階段:
??第一階段——準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。
??第二階段——分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。
??第三階段——應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。

樣本特征屬性選擇和數據處理

特征屬性選擇

??在文章的開頭就已經說明,樸素貝葉斯算法,人為的限制所有樣本的特征屬性獨立。所以在選擇特征屬性的時候,應當注意選擇權重較大,獨立性較高的屬性來作為特征屬性。

拉普拉斯校準

??細心閱讀上面的內容,會發現如果一個待測樣本的某一個特征屬性在某個分類上出現的次數為0時,它將會導致整個分子的乘積為0,這有可能導致就算待測樣本在其他屬性上與一個已知分類一模一樣,也不會被劃分到該類。因此會大大降低整個分類的效果。與此同時,這種情況在現實生活中也是不被允許的。舉個例子,就比如你今天穿了紅上衣和媽媽打完招呼之后,高高興興的去上學,然后放學回家的路上掉到了水坑里,回家之后不得不換了一件黑上衣。此時你母親再看到你的時候,不能因為你是黑上衣,就說你不是她的孩子。從機器學習的角度看,她會降低上衣顏色這個屬性的權重,通過對其他屬性的評估來確認。當然這個例子也不是太好,比較極端,但是它確實說明了問題的嚴重性。

??因此,需要我們對整個數據進行處理。在這里的表現就是拉普拉斯校準。也就是當一個屬性在分類中出現的詞頻是0的時候,我默認其為1,當然其他的樣本的個數都要加1.相應的1變成2,2變成3。這樣的話,保證了分子不為0,而且在數據量很大的情況下,它并不會影響結果。所以利用拉普拉斯校準解決了這個問題。

總結

??樸素貝葉斯算法能夠很好的完成分類工作,但是它人為強加的條件限制了它的使用場景。我在Hadoop下利用MapReduce實現了樸素貝葉斯算法,確實能夠達到不錯分類效果。如果有讀者需要程序,可以發送郵件給我。希望各位讀者對文章中出現的問題和錯誤進行斧正,歡迎大家一起探討相關方面的問題

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容