淺談貝葉斯

淺談貝葉斯

不論是學習概率統計還是機器學習的過程中,貝葉斯總是是繞不過去的一道坎,大部分人在學習的時候都是在強行地背公式和套用方法,沒有真正去理解其牛逼的思想內涵。我看了一下自己學校里一些涉及到貝葉斯統計的課程,content里的第一條都是Philosophy of Bayesian statistics


歷史背景

什么事都要從頭說起,貝葉斯全名為托馬斯·貝葉斯(Thomas Bayes,1701-1761),是一位與牛頓同時代的牧師,是一位業余數學家,平時就思考些有關上帝的事情,當然,統計學家都認為概率這個東西就是上帝在擲骰子。當時貝葉斯發現了古典統計學當中的一些缺點,從而提出了自己的“貝葉斯統計學”,但貝葉斯統計當中由于引入了一個主觀因素(先驗概率,下文會介紹),一點都不被當時的人認可。直到20世紀中期,也就是快200年后了,統計學家在古典統計學中遇到了瓶頸,伴隨著計算機技術的發展,當統計學家使用貝葉斯統計理論時發現能解決很多之前不能解決的問題,從而貝葉斯統計學一下子火了起來,兩個統計學派從此爭論不休。


什么是概率?

什么是概率這個問題似乎人人都覺得自己知道,卻有很難說明白。比如說我問你 擲一枚硬幣為正面的概率為多少?,大部分人第一反應就是50%的幾率為正。

不好意思,首先這個答案就不正確,只有當材質均勻時硬幣為正面的幾率才是50%(所以不要覺得打麻將的時候那個骰子每面的幾率是相等的,萬一被做了手腳呢)。

好,那現在假設硬幣的材質是均勻的,那么為什么正面的幾率就是50%呢?

有人會說是因為我擲了1000次硬幣,大概有492次是正面,508次是反面,所以近似認為是50%,說得很好(擲了1000次我也是服你)。

擲硬幣的例子說明了古典統計學的思想,就是概率是基于大量實驗的,也就是 大數定理

那么現在再問你,有些事件,例如:明天下雨的概率是30%;A地會發生地震的概率是5%;一個人得心臟病的概率是40%…… 這些概率怎么解釋呢?

難道是A地真的100次的機會里,地震了5次嗎?

肯定不是這樣,所以古典統計學就無法解釋了。

再回到擲硬幣的例子中,如果你沒有機會擲1000次這么多次,而是只擲了3次,可這3次又都是正面,那該怎么辦?難道這個正面的概率就是100%了嗎?這也是古典統計學的弊端。


舉個例子:生病的幾率

一種癌癥,得了這個癌癥的人被檢測出為陽性的幾率為90%,未得這種癌癥的人被檢測出陰性的幾率為90%,而人群中得這種癌癥的幾率為1%,一個人被檢測出陽性,問這個人得癌癥的幾率為多少?

猛地一看,被檢查出陽性,而且得癌癥的話陽性的概率是90%,那想必這個人應該是難以幸免了。
那我們接下來就算算看。

我們用 A表示事件 “測出為陽性”, 用B_{1}表示“得癌癥”,B_{2}表示“未得癌癥”。
根據題目,我們知道如下信息:
P(A|B_{1})=0.9, P(A|B_{2})=0.1, P(B_{1})=0.01, P(B_{2})=0.99

那么我們現在想得到人群中檢測為陽性且得癌癥的幾率P(B_{1}A)

P(B_{1}A)=P(B_{1})*P(A|B_{1})=0.01*0.9=0.009

這里P(B_{1}A)表示的是聯合概率,得癌癥且檢測出陽性的概率是人群中得癌癥的概率乘上得癌癥時測出是陽性的幾率,是0.009。
同理可得未得癌癥且檢測出陽性的概率:

P(B_{2}A)=P(B_{2})*P(A|B_{2})=0.99*0.1=0.099

這個概率是什么意思呢?其實是指如果人群中有1000個人,檢測出陽性并且得癌癥的人有9個,檢測出陽性但未得癌癥的人有99個。可以看出,檢測出陽性并不可怕,不得癌癥的是絕大多數的,這跟我們一開始的直覺判斷是不同的!可直到現在,我們并沒有得到所謂的“在檢測出陽性的前提下得癌癥的 概率 ”,怎么得到呢?很簡單,就是看被測出為陽性的這108(9+99)人里,9人和99人分別占的比例就是我們要的。

所以陽性得癌癥的概率P(B_{1}|A)為:\frac {0.009}{0.099+0.009} \approx 0.083 ,

陽性未得癌癥的概率P(B_{2}|A)為:\frac {0.099}{0.099+0.009} \approx 0.917

這里P(B_{1}|A)P(B_{2}|A)中間多了這一豎線,表示的也是條件概率,而這個概率就是貝葉斯統計中的 后驗概率

前面提到的人群中患癌癥與否的概率P(B_{1})P(B_{2})就是 先驗概率

我們知道了先驗概率,根據觀測值(observation),也可稱為test evidence:是否為陽性,來判斷得癌癥的后驗概率,這就是基本的貝葉斯思想,我們現在就能得出本題的后驗概率的公式為:
P(B_{i}|A) = \frac {P(A|B_{i})*P(B_{i})}{P(A|B_{1})*P(B_{1})+P(A|B_{2})*P(B_{2})}

由此就能得到如下的貝葉斯公式的一般形式。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,885評論 6 541
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,312評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,993評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,667評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,410評論 6 411
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,778評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,775評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,955評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,521評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,266評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,468評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,998評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,696評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,095評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,385評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,193評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,431評論 2 378

推薦閱讀更多精彩內容