輕松帶你搞懂樸素貝葉斯分類算法

貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。這篇文章我盡可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分類算法,希望有利于他人理解。

1分類問題綜述

對于分類問題,其實誰都不會陌生,日常生活中我們每天都進行著分類過程。例如,當你看到一個人,你的腦子下意識判斷他是學生還是社會上的人;你可能經常會走在路上對身旁的朋友說“這個人一看就很有錢”之類的話,其實這就是一種分類操作。

分類算法的內容是要求給定特征,讓我們得出類別,這也是所有分類問題的關鍵。那么如何由指定特征,得到我們最終的類別,也是我們下面要講的,每一個不同的分類算法,對應著不同的核心思想。

本篇文章,我會用一個具體實例,對樸素貝葉斯算法幾乎所有的重要知識點進行講解。

2樸素貝葉斯分類

那么既然是樸素貝葉斯分類算法,它的核心算法又是什么呢?

是下面這個貝葉斯公式:

貝葉斯公式

換個表達形式就會明朗很多,如下:

貝葉斯公式

我們最終求的p(類別|特征)即可!就相當于完成了我們的任務。

3例題分析

下面我先給出例子問題。

給定數據如下:

數據

現在給我們的問題是,如果一對男女朋友,男生想女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,不上進,請你判斷一下女生是嫁還是不嫁?

這是一個典型的分類問題,轉為數學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))的概率,誰的概率大,我就能給出嫁或者不嫁的答案!

這里我們聯系到樸素貝葉斯公式:

7631194-e3112f2f162ed9a4.png

我們需要求p(嫁|(不帥、性格不好、身高矮、不上進),這是我們不知道的,但是通過樸素貝葉斯公式可以轉化為好求的三個量.

p(不帥、性格不好、身高矮、不上進|嫁)、p(不帥、性格不好、身高矮、不上進)、p(嫁)(至于為什么能求,后面會講,那么就太好了,將待求的量轉化為其它可求的值,這就相當于解決了我們的問題!)

4樸素貝葉斯算法的樸素一詞解釋

那么這三個量是如何求得?

是根據已知訓練數據統計得來,下面詳細給出該例子的求解過程。

回憶一下我們要求的公式如下:

7631194-f57340dd55795ec4.png

那么我只要求得p(不帥、性格不好、身高矮、不上進|嫁)、p(不帥、性格不好、身高矮、不上進)、p(嫁)即可,好的,下面我分別求出這幾個概率,最后一比,就得到最終結果。

p(不帥、性格不好、身高矮、不上進|嫁) = p(不帥|嫁)p(性格不好|嫁)p(身高矮|嫁)*p(不上進|嫁),那么我就要分別統計后面幾個概率,也就得到了左邊的概率!

等等,為什么這個成立呢?學過概率論的同學可能有感覺了,這個等式成立的條件需要特征之間相互獨立吧!

對的!這也就是為什么樸素貝葉斯分類有樸素一詞的來源,樸素貝葉斯算法是假設各個特征之間相互獨立,那么這個等式就成立了!

但是為什么需要假設特征之間相互獨立呢?

1、我們這么想,假如沒有這個假設,那么我們對右邊這些概率的估計其實是不可做的,這么說,我們這個例子有4個特征,其中帥包括{帥,不帥},性格包括{不好,好,爆好},身高包括{高,矮,中},上進包括{不上進,上進},那么四個特征的聯合概率分布總共是4維空間,總個數為233*2=36個。

36個,計算機掃描統計還可以,但是現實生活中,往往有非常多的特征,每一個特征的取值也是非常之多,那么通過統計來估計后面概率的值,變得幾乎不可做,這也是為什么需要假設特征之間獨立的原因。

2、假如我們沒有假設特征之間相互獨立,那么我們統計的時候,就需要在整個特征空間中去找,比如統計p(不帥、性格不好、身高矮、不上進|嫁),

我們就需要在嫁的條件下,去找四種特征全滿足分別是不帥,性格不好,身高矮,不上進的人的個數,這樣的話,由于數據的稀疏性,很容易統計到0的情況。 這樣是不合適的。

根據上面倆個原因,樸素貝葉斯法對條件概率分布做了條件獨立性的假設,由于這是一個較強的假設,樸素貝葉斯也由此得名!這一假設使得樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。

好的,上面我解釋了為什么可以拆成分開連乘形式。那么下面我們就開始求解!

我們將上面公式整理一下如下:

7631194-b8f1fe0050e304e1-1.png

下面我將一個一個的進行統計計算(在數據量很大的時候,根據中心極限定理,頻率是等于概率的,這里只是一個例子,所以我就進行統計即可)。

p(嫁)=?

首先我們整理訓練數據中,嫁的樣本數如下:

7631194-6b1dd7476282355a.png

則 p(嫁) = 6/12(總樣本數) = 1/2

統計滿足樣本數如下:
則p(不帥|嫁) = 3/6 = 1/2
則p(性格不好|嫁)= 1/6
則p(矮|嫁) = 1/6
則p(不上進|嫁) = 1/6

下面開始求分母,p(不帥),p(性格不好),p(矮),p(不上進)

統計樣本如下:
不帥占4個,那么p(不帥) = 4/12 = 1/3
性格不好占4個,那么p(性格不好) = 4/12 = 1/3
身高矮占7個,那么p(身高矮) = 7/12
不上進占4個,那么p(不上進) = 4/12 = 1/3

到這里,要求p(不帥、性格不好、身高矮、不上進|嫁)的所需項全部求出來了,下面我帶入進去即可,

7631194-13ea4fdc6eb4aad0.png

= (1/21/61/61/61/2)/(1/31/37/12*1/3)
= 4/7
下面我們根據同樣的方法來求p(不嫁|不帥,性格不好,身高矮,不上進),完全一樣的做法,為了方便理解,我這里也走一遍幫助理解。首先公式如下:

7631194-1a5c5cd22d0742f2.png

下面我也一個一個來進行統計計算,這里與上面公式中,分母是一樣的,于是我們分母不需要重新統計計算!

p(不嫁)=?根據統計計算如下(紅色為滿足條件):

7631194-b6da06ee9e6b4bcd.png

則p(不嫁)=6/12 = 1/2

統計滿足條件的樣本如下
則p(不帥|不嫁) = 1/6
則p(性格不好|不嫁) =3/6 = 1/2
則p(矮|不嫁) = 6/6 = 1
則p(不上進|不嫁) = 3/6 = 1/2

那么根據公式:

7631194-1a5c5cd22d0742f2.png

= ((1/61/211/2)1/2)/(1/31/37/12*1/3)
=27/28

很顯然27/28 > 4/7
(分母相同也可之比較分子)

于是有p (不嫁|不帥、性格不好、身高矮、不上進)>p (嫁|不帥、性格不好、身高矮、不上進)
所以我們根據樸素貝葉斯算法可以給這個女生答案,是不嫁!!!!

有時我們的可能會出現0,會大大影響整個概率走向


image.png

計算結果:
image.png

問題:從上面的例子我們得到娛樂概率為0,這是不合理的,如果詞頻列表里面
有很多出現次數都為0,很可能計算結果都為零


image.png

5樸素貝葉斯分類的優缺點

優點:
(1) 算法邏輯簡單,易于實現(算法思路很簡單,只要使用貝葉斯公式轉化醫學即可!)
(2)分類過程中時空開銷小(假設特征相互獨立,只會涉及到二維存儲)

缺點:
理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。

而在屬性相關性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

整個例子詳細的講解了樸素貝葉斯算法的分類過程,希望對大家的理解有幫助~

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容