樸素貝葉斯

樸素貝葉斯法

分類算法的內容是要求給定特征,讓我們得出類別,這也是所有分類問題的關鍵

基本概念:

貝葉斯定理P(H|D)=P(D|H)*P(H)/P(D)


我們通過對上面式子,可以把一個難求的問題變成三個相對簡單的求解

樸素貝葉斯算法是假設各個特征之間相互獨立


H類別集合(向量) D項集合(特征集合)其中每一個元素都是待分類項分類算法的任務就是構造分類器f。

P(H):先驗 也就是樣本中類別的概率 在沒有任何數據的時候我所認為參數的分布

P(D|H):似驗 樣本中得到的

P(H|D):后驗 需要最后計算的 由于需要高緯積分,很難計算

P(D):證據 ???


由1可知,特征向量 X 的維度不一定是一維的,可能是多維的:X=(x1,x2,x3,....xn)


因此樣本類別Y的取值 這里寫圖片描述 是跟 樣本的每一個維度取值有關的。因此可由貝葉斯定理得出下式:

則似驗計算如右:

則根據全概率公式,證據:

一般來說,證據概率是一個常量

1.3.1首先我們要先抽象出偏差的概念

如果一個硬幣總是正面朝上,我們就說它的偏差是1,各占一半就是0.5

1.3.2選擇似然

1.求極大似然函數估計值的一般步驟:

(1) 寫出似然函數

(2) 對似然函數取對數,并整理;(此步驟根據題意可以省略)

(3) 求導數

(4) 解似然方程 。

1.3.3選擇先驗

1.3.4計算后驗

1.3.5畫圖

樸素貝葉斯分類的正式定義如下:

1、設X = {a1,a2,...,am}為一個待分類項,而每個a為x的一個特征屬性。

2、有類別集合C={y1,y2,...yn}

3、計算P(y1|x),P(y2|x),.....P(yn|x)

4、如果 P(Yk|x) = max{P(y1|x),P(y2|x),.....P(yn|x)},則xshuyuYk

那么現在的關鍵就是如何計算第3步中的各個條件概率。我們可以這么做:

1、找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集。

2、統計得到在各類別下各個特征屬性的條件概率估計。即


3、如果各個特征屬性是條件獨立的,則根據貝葉斯定理有如下推導:


因為分母對于所有類別為常數,因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨立的,所以有:


我們來看一個直觀的例子:已知:在夏季,某公園男性穿涼鞋的概率為1/2,女性穿涼鞋的概率為2/3,并且該公園中男女比例通常為2:1,問題:若你在公園中隨機遇到一個穿涼鞋的人,請問他的性別為男性或女性的概率分別為多少?

從問題看,就是上面講的,某事發生了,它屬于某一類別的概率是多少?即后驗概率。

設:由已知可得:男性和女性穿涼鞋相互獨立,所以

(若只考慮分類問題,只需要比較后驗概率的大小,的取值并不重要)。

由貝葉斯公式算出:


樸素貝葉斯分類的優缺點

優點:

算法邏輯簡單,易于實現(算法思路很簡單,只要使用貝葉斯公式轉化!)

分類過程中時空開銷小(假設特征相互獨立,只會涉及到二維存儲)

缺點:

理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。

而在屬性相關性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。

高斯樸素貝葉斯模型

在高斯樸素貝葉斯模型中,特征向量X的特征 通常為 連續型變量,并且假定所有特征的取值是符合高斯分布的

多項分布樸素貝葉斯模型

在多項分布樸素貝葉斯模型中,特征向量X的特征 通常為 離散型變量,并且假定所有特征的取值是符合多項分布的,可用于文本分類。

伯努利樸素貝葉斯模型

在伯努利樸素貝葉斯模型中,每個特征的取值是布爾型,或以0和1表示,所以伯努利模型中,每個特征值為0或者1。

在文本分類中,多項分布樸素貝葉斯是以文本的單詞為粒度(以特征為粒度)進行計算的,即計算該單詞特征在對應的文檔中出現的次數,而伯努利樸素貝葉斯是為文本為粒度(以樣本為粒度)進行計算的,即計算存在該單詞特征的文檔個數。因此伯努利樸素貝葉斯模型在一定程度上忽略了同一個文檔中的單詞的詞頻

?

import numpy#二項分布生成器a = numpy.random.binomial(n=10, p=0.7, size = 100)print(a)a_count= 0EX=0Ex=0Dx=0for i in a:????while i == 7:????????a_count = a_count+1????????break????Ex = Ex+a[i]for j in a:????Dx = (a[i]-Ex)*(a[i]-Ex)print(a_count)print(Ex/100)print(Dx/100)

蒙特卡洛模擬和馬爾可夫鏈

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,908評論 6 541
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,324評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,018評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,675評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,417評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,783評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,779評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,960評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,522評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,267評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,471評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,009評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,698評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,099評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,386評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,204評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,436評論 2 378

推薦閱讀更多精彩內容