貝葉斯公式由淺入深

姓名:張藝倫 ? ?學號:17011210282

轉載自:https://zhuanlan.zhihu.com/p/26703300,有刪節

【嵌牛導讀】:本文由淺入深介紹了貝葉斯方法的出現,之后進一步介紹了貝葉斯定理 ,最 后給出了一個例子幫助理解。

【嵌牛鼻子】:貝葉斯公式,思想,應用。

【嵌牛提問】:什么是貝葉斯公式?具體應用是什么?

【嵌牛正文】:

1 貝葉斯方法

長久以來,人們對一件事情發生或不發生的概率,只有固定的0和1,即要么發生,要么不發生,從來不會去考慮某件事情發生的概率有多大,不發生的概率又是多大。而且概率雖然未知,但最起碼是一個確定的值。比如如果問那時的人們一個問題:“有一個袋子,里面裝著若干個白球和黑球,請問從袋子中取得白球的概率是多少?”他們會想都不用想,會立馬告訴你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一個值,而且不論你取了多少次,取得白球的概率θ始終都是1/2,即不隨觀察結果X 的變化而變化。

這種頻率派的觀點長期統治著人們的觀念,但是:

假設我們有如下的7個球在A,B兩個框中,如果我們隨便取一個球,已知取到的球來自B框中,那么這個球是白球的概率是多少呢?或者問去除的球是白色,那么取自B框的概率是多少呢?這個問題不是很好解決,直到后來一個名叫Thomas Bayes的人物出現。

1.1 貝葉斯方法的提出

托馬斯·貝葉斯Thomas Bayes(1702-1763)在世時,并不為當時的人們所熟知,很少發表論文或出版著作,與當時學術界的人溝通交流也很少,用現在的話來說,貝葉斯就是活生生一民間學術“屌絲”,可這個“屌絲”最終發表了一篇名為“An essay towards solving a problem in the doctrine of chances”,翻譯過來則是:機遇理論中一個問題的解。你可能覺得我要說:這篇論文的發表隨機產生轟動效應,從而奠定貝葉斯在學術史上的地位。

事實上,上篇論文發表后,在當時并未產生多少影響,在20世紀后,這篇論文才逐漸被人們所重視。對此,與梵高何其類似,畫的畫生前一文不值,死后價值連城。

回到上面的例子:“有一個袋子,里面裝著若干個白球和黑球,請問從袋子中取得白球的概率θ是多少?”貝葉斯認為取得白球的概率是個不確定的值,因為其中含有機遇的成分。比如,一個朋友創業,你明明知道創業的結果就兩種,即要么成功要么失敗,但你依然會忍不住去估計他創業成功的幾率有多大?你如果對他為人比較了解,而且有方法、思路清晰、有毅力、且能團結周圍的人,你會不由自主的估計他創業成功的幾率可能在80%以上。這種不同于最開始的“非黑即白、非0即1”的思考方式,便是貝葉斯式的思考方式。

繼續深入講解貝葉斯方法之前,先簡單總結下頻率派與貝葉斯派各自不同的思考方式:

頻率派把需要推斷的參數θ看做是固定的未知常數,即概率θ雖然是未知的,但最起碼是確定的一個值,同時,樣本X 是隨機的,所以頻率派重點研究樣本空間,大部分的概率計算都是針對樣本X 的分布;

而貝葉斯派的觀點則截然相反,他們認為參數θ是隨機變量,而樣本X 是固定的,由于樣本是固定的,所以他們重點研究的是參數θ的分布。

相對來說,頻率派的觀點容易理解,所以下文重點闡述貝葉斯派的觀點。

貝葉斯派既然把θ看做是一個隨機變量,所以要計算θ的分布,便得事先知道θ的無條件分布,即在有樣本之前(或觀察到X之前),θ有著怎樣的分布呢?

比如往臺球桌上扔一個球,這個球落會落在何處呢?如果是不偏不倚的把球拋出去,那么此球落在臺球桌上的任一位置都有著相同的機會,即球落在臺球桌上某一位置的概率服從均勻分布。這種在實驗之前定下的屬于基本前提性質的分布稱為先驗分布,或的無條件分布。

至此,貝葉斯及貝葉斯派提出了一個思考問題的固定模式:

先驗分布 π(θ)+ 樣本信息χ? 后驗分布π(θ|x)

上述思考模式意味著,新觀察到的樣本信息將修正人們以前對事物的認知。換言之,在得到新的樣本信息之前,人們對的認知是先驗分布 π(θ),在得到新的樣本信息后χ,人們對θ的認知為π(θ|x)。

而后驗分布π(θ|x)一般也認為是在給定樣本χ的情況下θ的條件分布,而使達到最大的值稱為最大后θMD驗估計,類似于經典統計學中的極大似然估計。

綜合起來看,則好比是人類剛開始時對大自然只有少得可憐的先驗知識,但隨著不斷是觀察、實驗獲得更多的樣本、結果,使得人們對自然界的規律摸得越來越透徹。所以,貝葉斯方法既符合人們日常生活的思考方式,也符合人們認識自然的規律,經過不斷的發展,最終占據統計學領域的半壁江山,與經典統計學分庭抗禮。

此外,貝葉斯除了提出上述思考模式之外,還特別提出了舉世聞名的貝葉斯定理。

1.2 貝葉斯定理

在引出貝葉斯定理之前,先學習幾個定義:

邊緣概率(又稱先驗概率):某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中那些不需要的事件通過合并成它們的全概率,而消去它們(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率),這稱為邊緣化(marginalization),比如A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。

聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為P(A∩B)或者P(A,B)。

條件概率又稱后驗概率):事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”,。

接著,考慮一個問題:P(A|B)是在B發生的情況下A發生的可能性。

首先,事件B發生之前,我們對事件A的發生有一個基本的概率判斷,稱為A的先驗概率,用P(A)表示;

其次,事件B發生之后,我們對事件A的發生概率重新評估,稱為A的后驗概率,用P(A|B)表示;

類似的,事件A發生之前,我們對事件B的發生有一個基本的概率判斷,稱為B的先驗概率,用P(B)表示;

同樣,事件A發生之后,我們對事件B的發生概率重新評估,稱為B的后驗概率,用P(B|A)表示。

貝葉斯定理便是基于下述貝葉斯公式:

P(A|B)=P(B|A)P(A)/P(B)

上述公式的推導其實非常簡單,就是從條件概率推出。

根據條件概率的定義,在事件B發生的條件下事件A發生的概率是

P(A|B)=P(A∩B)/P(B)

同樣地,在事件A發生的條件下事件B發生的概率

P(B|A)=P(A∩B)/P(A)

整理與合并上述兩個方程式,便可以得到:

P(A|B)P(B)=P(A∩B)=P(B|A)P(A)

接著,上式兩邊同除以P(B),若P(B)是非零的,我們便可以得到貝葉斯定理的公式表達式:

P(A|B)=P(B|A)*P(A)/P(B)

筆者在看《從貝葉斯方法談到貝葉斯網絡》的時候,看到這里,其實已經暈暈的了。

P(A|B) 和 P(B|A) 之類的經常讓人混淆,@待字閨中的陳老師給出了理解的一個關鍵點,區分出規律和現象,就是將A看成“規律”,B看成“現象”,那么貝葉斯公式看成:

陳老師在《這的理解貝葉斯公式嗎》和《又一個生活中的貝葉斯應用》給出了幾個通俗易懂的例子,這里不再贅述。

貝葉斯推斷的含義

然后搜下,發現其實還有更好闡釋,比如

對條件概率公式進行變形,可以得到如下形式:

我們把P(A)稱為"先驗概率"(Prior probability),即在B事件發生之前,我們對A事件概率的一個判斷。P(A|B)稱為"后驗概率"(Posterior probability),即在B事件發生之后,我們對A事件概率的重新評估。P(B|A)/P(B)稱為"可能性函數"(Likelyhood),這是一個調整因子,使得預估概率更接近真實概率。

所以,條件概率可以理解成下面的式子:

后驗概率 = 先驗概率 x 調整因子

這就是貝葉斯推斷的含義。我們先預估一個"先驗概率",然后加入實驗結果,看這個實驗到底是增強還是削弱了"先驗概率",由此得到更接近事實的"后驗概率"。

在這里,如果"可能性函數"P(B|A)/P(B)>1,意味著"先驗概率"被增強,事件A的發生的可能性變大;如果"可能性函數"=1,意味著B事件無助于判斷事件A的可能性;如果"可能性函數"<1,意味著"先驗概率"被削弱,事件A的可能性變小。

貝葉斯定理應用示例:

已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?

假定A事件表示得病,那么P(A)為0.001。這就是"先驗概率",即沒有做試驗之前,我們預計的發病率。再假定B事件表示陽性,那么要計算的就是P(A|B)。這就是"后驗概率",即做了試驗以后,對發病率的估計。

根據條件概率公式,

用全概率公式改寫分母,

將數字代入,

我們得到了一個驚人的結果,P(A|B)約等于0.019。也就是說,即使檢驗呈現陽性,病人得病的概率,也只是從0.1%增加到了2%左右。這就是所謂的"假陽性",即陽性結果完全不足以說明病人得病。

或許換成這個公式 P(A|B)=P(A∩B)/B,看起來更加直白寫:

闡釋:

如果沒有誤報,那么得病率:.001*.99

如果是誤報,那么得病率為:.05*(1-.0001),

所以:

p(A|B)=.001*.99/[.99*.001+.05*(1-.0001)]=.019

為什么會這樣?為什么這種檢驗的準確率高達99%,但是可信度卻不到2%?答案是與它的誤報率太高有關。

有興趣的朋友,還可以算一下"假陰性"問題,即檢驗結果為陰性,但是病人確實得病的概率有多大。然后問自己,"假陽性"和"假陰性",哪一個才是醫學檢驗的主要風險?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容