淺談貝葉斯
不論是學習概率統計還是機器學習的過程中,貝葉斯總是是繞不過去的一道坎,大部分人在學習的時候都是在強行地背公式和套用方法,沒有真正去理解其牛逼的思想內涵。我看了一下自己學校里一些涉及到貝葉斯統計的課程,content里的第一條都是Philosophy of Bayesian statistics。
歷史背景
什么事都要從頭說起,貝葉斯全名為托馬斯·貝葉斯(Thomas Bayes,1701-1761),是一位與牛頓同時代的牧師,是一位業余數學家,平時就思考些有關上帝的事情,當然,統計學家都認為概率這個東西就是上帝在擲骰子。當時貝葉斯發現了古典統計學當中的一些缺點,從而提出了自己的“貝葉斯統計學”,但貝葉斯統計當中由于引入了一個主觀因素(先驗概率,下文會介紹),一點都不被當時的人認可。直到20世紀中期,也就是快200年后了,統計學家在古典統計學中遇到了瓶頸,伴隨著計算機技術的發展,當統計學家使用貝葉斯統計理論時發現能解決很多之前不能解決的問題,從而貝葉斯統計學一下子火了起來,兩個統計學派從此爭論不休。
什么是概率?
什么是概率這個問題似乎人人都覺得自己知道,卻有很難說明白。比如說我問你 擲一枚硬幣為正面的概率為多少?,大部分人第一反應就是50%的幾率為正。
不好意思,首先這個答案就不正確,只有當材質均勻時硬幣為正面的幾率才是50%(所以不要覺得打麻將的時候那個骰子每面的幾率是相等的,萬一被做了手腳呢)。
好,那現在假設硬幣的材質是均勻的,那么為什么正面的幾率就是50%呢?
有人會說是因為我擲了1000次硬幣,大概有492次是正面,508次是反面,所以近似認為是50%,說得很好(擲了1000次我也是服你)。
擲硬幣的例子說明了古典統計學的思想,就是概率是基于大量實驗的,也就是 大數定理。
那么現在再問你,有些事件,例如:明天下雨的概率是30%;A地會發生地震的概率是5%;一個人得心臟病的概率是40%…… 這些概率怎么解釋呢?
難道是A地真的100次的機會里,地震了5次嗎?
肯定不是這樣,所以古典統計學就無法解釋了。
再回到擲硬幣的例子中,如果你沒有機會擲1000次這么多次,而是只擲了3次,可這3次又都是正面,那該怎么辦?難道這個正面的概率就是100%了嗎?這也是古典統計學的弊端。
舉個例子:生病的幾率
一種癌癥,得了這個癌癥的人被檢測出為陽性的幾率為90%,未得這種癌癥的人被檢測出陰性的幾率為90%,而人群中得這種癌癥的幾率為1%,一個人被檢測出陽性,問這個人得癌癥的幾率為多少?
猛地一看,被檢查出陽性,而且得癌癥的話陽性的概率是90%,那想必這個人應該是難以幸免了。
那我們接下來就算算看。
我們用 表示事件 “測出為陽性”, 用
表示“得癌癥”,
表示“未得癌癥”。
根據題目,我們知道如下信息:
那么我們現在想得到人群中檢測為陽性且得癌癥的幾率:
這里表示的是聯合概率,得癌癥且檢測出陽性的概率是人群中得癌癥的概率乘上得癌癥時測出是陽性的幾率,是0.009。
同理可得未得癌癥且檢測出陽性的概率:
這個概率是什么意思呢?其實是指如果人群中有1000個人,檢測出陽性并且得癌癥的人有9個,檢測出陽性但未得癌癥的人有99個。可以看出,檢測出陽性并不可怕,不得癌癥的是絕大多數的,這跟我們一開始的直覺判斷是不同的!可直到現在,我們并沒有得到所謂的“在檢測出陽性的前提下得癌癥的 概率 ”,怎么得到呢?很簡單,就是看被測出為陽性的這108(9+99)人里,9人和99人分別占的比例就是我們要的。
所以陽性得癌癥的概率為:
,
陽性未得癌癥的概率為:
。
這里,
中間多了這一豎線,表示的也是條件概率,而這個概率就是貝葉斯統計中的 后驗概率!
前面提到的人群中患癌癥與否的概率,
就是 先驗概率!
我們知道了先驗概率,根據觀測值(observation),也可稱為test evidence:是否為陽性,來判斷得癌癥的后驗概率,這就是基本的貝葉斯思想,我們現在就能得出本題的后驗概率的公式為:
由此就能得到如下的貝葉斯公式的一般形式。