姓名:張藝倫 ? ?學號:17011210282
轉載自:https://zhuanlan.zhihu.com/p/26703300,有刪節
【嵌牛導讀】:本文由淺入深介紹了貝葉斯方法的出現,之后進一步介紹了貝葉斯定理 ,最 后給出了一個例子幫助理解。
【嵌牛鼻子】:貝葉斯公式,思想,應用。
【嵌牛提問】:什么是貝葉斯公式?具體應用是什么?
【嵌牛正文】:
1 貝葉斯方法
長久以來,人們對一件事情發生或不發生的概率,只有固定的0和1,即要么發生,要么不發生,從來不會去考慮某件事情發生的概率有多大,不發生的概率又是多大。而且概率雖然未知,但最起碼是一個確定的值。比如如果問那時的人們一個問題:“有一個袋子,里面裝著若干個白球和黑球,請問從袋子中取得白球的概率是多少?”他們會想都不用想,會立馬告訴你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一個值,而且不論你取了多少次,取得白球的概率θ始終都是1/2,即不隨觀察結果X 的變化而變化。
這種頻率派的觀點長期統治著人們的觀念,但是:
假設我們有如下的7個球在A,B兩個框中,如果我們隨便取一個球,已知取到的球來自B框中,那么這個球是白球的概率是多少呢?或者問去除的球是白色,那么取自B框的概率是多少呢?這個問題不是很好解決,直到后來一個名叫Thomas Bayes的人物出現。
1.1 貝葉斯方法的提出
托馬斯·貝葉斯Thomas Bayes(1702-1763)在世時,并不為當時的人們所熟知,很少發表論文或出版著作,與當時學術界的人溝通交流也很少,用現在的話來說,貝葉斯就是活生生一民間學術“屌絲”,可這個“屌絲”最終發表了一篇名為“An essay towards solving a problem in the doctrine of chances”,翻譯過來則是:機遇理論中一個問題的解。你可能覺得我要說:這篇論文的發表隨機產生轟動效應,從而奠定貝葉斯在學術史上的地位。
事實上,上篇論文發表后,在當時并未產生多少影響,在20世紀后,這篇論文才逐漸被人們所重視。對此,與梵高何其類似,畫的畫生前一文不值,死后價值連城。
回到上面的例子:“有一個袋子,里面裝著若干個白球和黑球,請問從袋子中取得白球的概率θ是多少?”貝葉斯認為取得白球的概率是個不確定的值,因為其中含有機遇的成分。比如,一個朋友創業,你明明知道創業的結果就兩種,即要么成功要么失敗,但你依然會忍不住去估計他創業成功的幾率有多大?你如果對他為人比較了解,而且有方法、思路清晰、有毅力、且能團結周圍的人,你會不由自主的估計他創業成功的幾率可能在80%以上。這種不同于最開始的“非黑即白、非0即1”的思考方式,便是貝葉斯式的思考方式。
繼續深入講解貝葉斯方法之前,先簡單總結下頻率派與貝葉斯派各自不同的思考方式:
頻率派把需要推斷的參數θ看做是固定的未知常數,即概率θ雖然是未知的,但最起碼是確定的一個值,同時,樣本X 是隨機的,所以頻率派重點研究樣本空間,大部分的概率計算都是針對樣本X 的分布;
而貝葉斯派的觀點則截然相反,他們認為參數θ是隨機變量,而樣本X 是固定的,由于樣本是固定的,所以他們重點研究的是參數θ的分布。
相對來說,頻率派的觀點容易理解,所以下文重點闡述貝葉斯派的觀點。
貝葉斯派既然把θ看做是一個隨機變量,所以要計算θ的分布,便得事先知道θ的無條件分布,即在有樣本之前(或觀察到X之前),θ有著怎樣的分布呢?
比如往臺球桌上扔一個球,這個球落會落在何處呢?如果是不偏不倚的把球拋出去,那么此球落在臺球桌上的任一位置都有著相同的機會,即球落在臺球桌上某一位置的概率服從均勻分布。這種在實驗之前定下的屬于基本前提性質的分布稱為先驗分布,或的無條件分布。
至此,貝葉斯及貝葉斯派提出了一個思考問題的固定模式:
先驗分布 π(θ)+ 樣本信息χ? 后驗分布π(θ|x)
上述思考模式意味著,新觀察到的樣本信息將修正人們以前對事物的認知。換言之,在得到新的樣本信息之前,人們對的認知是先驗分布 π(θ),在得到新的樣本信息后χ,人們對θ的認知為π(θ|x)。
而后驗分布π(θ|x)一般也認為是在給定樣本χ的情況下θ的條件分布,而使達到最大的值稱為最大后θMD驗估計,類似于經典統計學中的極大似然估計。
綜合起來看,則好比是人類剛開始時對大自然只有少得可憐的先驗知識,但隨著不斷是觀察、實驗獲得更多的樣本、結果,使得人們對自然界的規律摸得越來越透徹。所以,貝葉斯方法既符合人們日常生活的思考方式,也符合人們認識自然的規律,經過不斷的發展,最終占據統計學領域的半壁江山,與經典統計學分庭抗禮。
此外,貝葉斯除了提出上述思考模式之外,還特別提出了舉世聞名的貝葉斯定理。
1.2 貝葉斯定理
在引出貝葉斯定理之前,先學習幾個定義:
邊緣概率(又稱先驗概率):某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中那些不需要的事件通過合并成它們的全概率,而消去它們(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率),這稱為邊緣化(marginalization),比如A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。
聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為P(A∩B)或者P(A,B)。
條件概率(又稱后驗概率):事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”,。
接著,考慮一個問題:P(A|B)是在B發生的情況下A發生的可能性。
首先,事件B發生之前,我們對事件A的發生有一個基本的概率判斷,稱為A的先驗概率,用P(A)表示;
其次,事件B發生之后,我們對事件A的發生概率重新評估,稱為A的后驗概率,用P(A|B)表示;
類似的,事件A發生之前,我們對事件B的發生有一個基本的概率判斷,稱為B的先驗概率,用P(B)表示;
同樣,事件A發生之后,我們對事件B的發生概率重新評估,稱為B的后驗概率,用P(B|A)表示。
貝葉斯定理便是基于下述貝葉斯公式:
P(A|B)=P(B|A)P(A)/P(B)
上述公式的推導其實非常簡單,就是從條件概率推出。
根據條件概率的定義,在事件B發生的條件下事件A發生的概率是
P(A|B)=P(A∩B)/P(B)
同樣地,在事件A發生的條件下事件B發生的概率
P(B|A)=P(A∩B)/P(A)
整理與合并上述兩個方程式,便可以得到:
P(A|B)P(B)=P(A∩B)=P(B|A)P(A)
接著,上式兩邊同除以P(B),若P(B)是非零的,我們便可以得到貝葉斯定理的公式表達式:
P(A|B)=P(B|A)*P(A)/P(B)
筆者在看《從貝葉斯方法談到貝葉斯網絡》的時候,看到這里,其實已經暈暈的了。
P(A|B) 和 P(B|A) 之類的經常讓人混淆,@待字閨中的陳老師給出了理解的一個關鍵點,區分出規律和現象,就是將A看成“規律”,B看成“現象”,那么貝葉斯公式看成:
陳老師在《這的理解貝葉斯公式嗎》和《又一個生活中的貝葉斯應用》給出了幾個通俗易懂的例子,這里不再贅述。
貝葉斯推斷的含義
然后搜下,發現其實還有更好闡釋,比如
對條件概率公式進行變形,可以得到如下形式:
我們把P(A)稱為"先驗概率"(Prior probability),即在B事件發生之前,我們對A事件概率的一個判斷。P(A|B)稱為"后驗概率"(Posterior probability),即在B事件發生之后,我們對A事件概率的重新評估。P(B|A)/P(B)稱為"可能性函數"(Likelyhood),這是一個調整因子,使得預估概率更接近真實概率。
所以,條件概率可以理解成下面的式子:
后驗概率 = 先驗概率 x 調整因子
這就是貝葉斯推斷的含義。我們先預估一個"先驗概率",然后加入實驗結果,看這個實驗到底是增強還是削弱了"先驗概率",由此得到更接近事實的"后驗概率"。
在這里,如果"可能性函數"P(B|A)/P(B)>1,意味著"先驗概率"被增強,事件A的發生的可能性變大;如果"可能性函數"=1,意味著B事件無助于判斷事件A的可能性;如果"可能性函數"<1,意味著"先驗概率"被削弱,事件A的可能性變小。
貝葉斯定理應用示例:
已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?
假定A事件表示得病,那么P(A)為0.001。這就是"先驗概率",即沒有做試驗之前,我們預計的發病率。再假定B事件表示陽性,那么要計算的就是P(A|B)。這就是"后驗概率",即做了試驗以后,對發病率的估計。
根據條件概率公式,
用全概率公式改寫分母,
將數字代入,
我們得到了一個驚人的結果,P(A|B)約等于0.019。也就是說,即使檢驗呈現陽性,病人得病的概率,也只是從0.1%增加到了2%左右。這就是所謂的"假陽性",即陽性結果完全不足以說明病人得病。
或許換成這個公式 P(A|B)=P(A∩B)/B,看起來更加直白寫:
闡釋:
如果沒有誤報,那么得病率:.001*.99
如果是誤報,那么得病率為:.05*(1-.0001),
所以:
p(A|B)=.001*.99/[.99*.001+.05*(1-.0001)]=.019
為什么會這樣?為什么這種檢驗的準確率高達99%,但是可信度卻不到2%?答案是與它的誤報率太高有關。
有興趣的朋友,還可以算一下"假陰性"問題,即檢驗結果為陰性,但是病人確實得病的概率有多大。然后問自己,"假陽性"和"假陰性",哪一個才是醫學檢驗的主要風險?