全概率公式和樸素貝葉斯

引子

【基礎知識】:條件概率----設A,B是兩個事件,且P(B)>0,則在事件B發生的條件下,事件A發生的條件概率(conditional probability)為:P(A|B)=P(AB)/P(B)

【基礎知識】:乘法公式

1.????由條件概率公式得:P(AB)=P(A|B)P(B)=P(B|A)P(A) 即為乘法公式;

2.????乘法公式的推廣:對于任何正整數n≥2,當P(A1A2...An-1) > 0 時,有:

????????????P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)


全概率公式概念

【公式定義】:如果事件組B1,B2,.... 滿足

a.????B1,B2....兩兩互斥,即 Bi?∩ Bj?= ? ,i≠j , i,j=1,2,....,且P(Bi)>0,i=1,2,....;

b.????B1∪B2∪....=Ω ,則稱事件組 B1,B2,...是樣本空間Ω的一個劃分

????????設?B1,B2,...是樣本空間Ω的一個劃分,A為任一事件,則:

?上式即為全概率公式(formula of total probability)

【全概率公式的意義】當直接計算P(A)較為困難,而P(Bi),P(A|Bi) ?(i=1,2,...)的計算較為簡單時,可以利用全概率公式計算P(A)。思想就是,將事件A分解成幾個小事件,通過求小事件的概率,然后相加從而求得事件A的概率,而將事件A進行分割的時候,不是直接對A進行分割,而是先找到樣本空間Ω的一個個劃分B1,B2,...Bn,這樣事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bi發生都可能導致A發生相應的概率是P(A|Bi),由加法公式得

????????P(A)=P(AB1)+P(AB2)+....+P(ABn) =P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)

【實例1】:某車間用甲、乙、丙三臺機床進行生產,各臺機床次品率分別為5%,4%,2%,它們各自的產品分別占總量的25%,35%,40%,將它們的產品混在一起,求任取一個產品是次品的概率。

? ? ? ? ? ? ? ? 解:設..... ? ? P(A)=25%*5%+4%*35%+2%*40%=0.0345

【實例2】:盒中有a個紅球,b個黑球,今隨機從中抽取一個,觀察顏色后放回,并加上同色球c個,再從盒子中第二次抽取一球,求第二次抽出的是黑球的概率是多少?


【樸素貝葉斯】概念

【貝葉斯定理】:貝葉斯定理是關于隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。

貝葉斯公式

【研究意義】:人們根據不確定性信息作出推理和決策需要對各種結論的概率作出估計,這類推理稱為概率推理。概率推理既是概率學和邏輯學的研究對象,也是心理學的研究對象,但研究的角度是不同的。概率學和邏輯學研究的是客觀概率推算的公式或規則;而心理學研究人們主觀概率估計的認知加工過程規律。貝葉斯推理的問題是條件概率推理問題,這一領域的探討對揭示人們對概率信息的認知加工過程與規律、指導人們進行有效的學習和判斷決策都具有十分重要的理論意義和實踐意義

【貝葉斯分類】:Bayes 是一種統計學分類方法,它基于貝葉斯定理,它假定一個屬性值對給定類的影響獨立于其它屬性點的值。該假定稱作類條件獨立。做次假定是為了簡化所需計算,并在此意義下稱為“樸素的”。

【運用場景】:對于屬性值是離散的,并且目標label值也是離散的情況下。分別計算label不同取值的概率,以及樣本在label情況下的概率值,然后將這些概率值相乘最后得到一個概率的乘積,選擇概率乘積最大的那個值對應的label值就為預測的結果。


廢話不多說,通過一個例子來熟知:

【實例1】:設某個公路經過的貨車與客車的比例大約是2:1,貨車中途停下來修車的概率是0.02,汽車中途停下來修車的概率是0.01,求 若有一輛車停下來修車,是貨車的概率是多少

? ? ? ? ?解:設B={停下來修車},A1={貨車},A2={非貨車,也就是客車};在有車停下來修車的前提下,是貨車的概率表達式應為:P(A1|B),顯然不好求!那么根據貝葉斯概率公式做個變換:

????????????P(A1|B) =? P(B|A1)*P(A1)/P(B)? ? 而 P(B)=P(B|A1)*P(A1) + P(B|A2)*P(A2)

其中: P(A1) = 2/3 (是貨車的概率)? ?P(A2) = 1/3(是客車的概率)

? ? ? ? ? ? P(B|A1) = 0.02(是貨車的前提下中途停下修車的概率)

? ? ? ? ? ? P(B|A2) = 0.01(是客車的前提下中途停下修車的概率)

最后計算結果: 2/3*0.02/(2/3*0.02 + 1/3*0.01) = 0.80

.【實例2】發報臺分別以概率0.6和0.4發出信號“∪”和“—”。由于通信系統受到干擾,當發出信號“∪”時,收報臺分別以概率0.8和0.2收到信號“∪”和“—”;又當發出信號“—”時,收報臺分別以概率0.9和0.1收到信號“—”和“∪”。求當收報臺收到信號“∪”時,發報臺確系發出“∪”的概率。

? ? 解:設A={收報臺收到“U”},設B1={發報臺發出的是“U”},B2={發報臺發出的是“—”}

? ?????????P(B1|A) = P(A|B1)*P(B1)/P(A);? ????????P(A) = P(A|B1)*P(B1)? + P(A|B2)*P(B2)

? ? ? ? ? ?P(B1|A)= (0.6*0.8)/(0.6*0.8+0.4*0.1)=0.923

【目標】:是預測蘋果在給定屬性的情況下是甜還是不甜【color=3,weight=3?】

數據表

color={0,1,2,3} weight={2,3,4};是屬性序列,為離散型。sweet={yes,no}是目標值,也為離散型;

這時我們要預測在color=3,weight=3的情況下的目標值,計算過程如下:

P{y=yes}=2/5=0.4; P{color=3|yes}=1/2=0.5;P{weight=3|yes}=1/2=0.5; ? 故F{color=3,weight=3}取yes的概率為 0.4*0.5*0.5=0.1;

P{y=no}=3/5=0.6; P{color=3|no}=1/3P{weight=3|no}=1/3;故P{color=3,weight=3}取no為 0.6*1/3*1/3=1/15;

0.1>1/15 所以認為 F{color=3,weight=3}=yes;


看完解題過程,先別疑惑,來看下面公式:

貝葉斯分類萬能公式

【樸素貝葉斯計算公式】---- 多個特征條件下的表達式

后驗概率表達式

在樸素貝葉斯分類算法中,既可以獨立的學習每個屬性Ai在類別屬性C下的條件概率P(Ai|C),也可以獨立學習每個屬性Ai的概率,因該值為常數,可用歸一化因子a來代替。

趁熱打鐵,再來一波【數據】:計算“不帥、性格不好、身高矮、不上進”該不該“嫁”?

數據表格
后驗概率
轉化后的表達式

根據上述公式,已經比較容易獲得計算結果;結果比較慘,就不寫具體值了......


【樸素貝葉斯】Java實現---- 處理測試用例數據

學習完上面的例子之后,就到了使用階段了。變化一下思路,首先看一個假設:

假設,我們有N組參數,每組參數最終都跟著一個分類結果數值(這個數值是人為標記的),這種場景的表現形式是不是特別像測試數據的日志+結果啊,我們在腦海里將這N組數據勾畫成一張表,是不是就是上面預測蘋果甜不甜的分類模型啊!這個模型能干什么呢?能做預測!這就是樸素貝葉斯能帶給我們的福利。廢話不多說,直接上代碼!

1.????首先讀取訓練數據集合:

假設數據集合
獲取數據列表

2.????將訓練集按最后一個值進行分類

按最后一列屬性分類

3.????在訓練數據的基礎上預測測試元組的類別 ,testT(測試數據集合)的各個屬性在結果集里面出現的概率相乘最高的,即是結果

指定屬性在訓練集中出現的頻率 * 分類占比 = p(x|yi)*p(yi)

4.? ? 主函數調用

總結一下:代碼寫的比較冗余,數據結構獲取這部分的設計比較笨重;貝葉斯的最終核心目標是算一些列的屬性在整個數據集合中的占比問題;連乘最后處理得結果。該考慮以類為最小單元,祛除復雜的運算邏輯。

延展:獲取數據結構前,可以添加文本的拆分、分析等功能模塊,以兼容文本分類場景。


【樸素貝葉斯】使用方法--- 文本分類處理模型


【樸素貝葉斯】分類模型的優勢

1)算法邏輯簡單,易于實現;

2)分類過程中時間、空間開銷小;

3)算法性能穩定,對于不同的數據特點其分類性能差別不大,即模型健壯性比較好。

應用范圍:

貝葉斯定理廣泛應用于決策分析。先驗概率經常是由決策者主觀估計的。在選擇最佳決策時,會在取得樣本信息后計算后驗概率以供決策者使用。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容