貝葉斯的路——概率論迷思

貝葉斯的路——概率論迷思

作者:覃含章

我想,任何一個進入概率論(然后才是統計學)大門的年輕人,一定會在學習的過程中對這套理論的邏輯自證性有所懷疑,或者對那些“樣本空間”里的“變量”和“空間”里那些“原本存在”的“變量”間的關系有所困惑的。至少,我是這樣的。
經歷了這短短一個學期,困惑越來越多。因此借著某課讀書報告的機會,我試圖把自己在概率世界里所涉獵的這么一丁點問題引發的思考搜集起來,在這篇文章里做一個梳理。
是的,那是另一個世界,我稱它為概率的世界,數學上則喜歡命名為概率的空間。雖然它確實好像對我們生活的這個現實世界有著巨大的應用價值,但是那條此世界——彼世界的鴻溝一直都在,或許將永遠在那里吧。
在本篇文章,我將考慮一些哲學的問題,并給他們數學的回答。
(事先說明:這篇文章引用了許多資料,純當科普,歡迎批評指正,不吝賜教)

一、 ****連接兩個世界的橋梁:測度
某種意義上說,我成為了pkli老師課件中一個集合的補集:沒有去“Have Fun”,反而自作多情地選修了數學系的“測度與積分”,主要學習了進入概率世界的這把鑰匙——勒貝格在一百年前建立的測度體系和方法。也可以說是從初等概率論(經驗/古典概率論)到公理化概率論(現代概率論)的飛躍。
不過,問題隨之接踵而來。
我始終感覺,數學是先驗的,它總是先霸道地構筑出一個邏輯的大廈,然后其它領域的工程師科學家欣喜地發現,“哎,好像這個定理拿來解決這個問題很方便的說。”這個構筑的過程仍然是受到現實世界的啟發,但當它一經完備化,就變成了獨立的另一世界。
而測度論所要解決的一個現實世界的本質問題在古希臘就有:即那個著名的“芝諾悖論”。一支離弦之箭,把它分成無數個瞬間,皆是靜止的,那它又怎么能運動呢?反之亦有矛盾。
在這里,本質便是對“時間”碎片的度量。換句話說,我們把連續的時間片段劃分成了無數的時間碎片。首先,這種劃分是否可以?第二,這些碎片的長度之和是否是原時間片的長度相等?
測度論對這個問題給了百分百明確和不容置疑的答案。
比如,對時間如此任意的劃分是否可以做到?
自從偉大的德國數學家康托(Cantor)建立起了第一個在數學意義上可謂嚴格的集合論之后,當時的那一些原本混亂的問題就開始變得清晰起來:實數集合可數么?自然數集是否和有理數集一樣多?當勢(Cardinality)的概念一被引入,人們發現了一套嶄新的、嚴密的語言來描述數學化的問題。
當然,后來又有羅素給的古怪集合:
A={x|x?A}
這直接引發了更深層次的關乎數學的邏輯危機:A究竟是不是一個集合?如果是,它的元素是什么?(觸及了形式邏輯的語義問題)好在后來澤梅羅提出選擇公理(不是所有我們腦袋中的“集合”都可以被理所當然地叫做“集合”)的新集合論體系,真正將集合論公理化。(然而古怪的問題還是不少,如Banach分球定理等)不過我們可以先不管那么多怪誕的例子,而僅限于我們這個世界在概率世界的“映射”。
測度論的邏輯就高明在這個地方。它對“測度”的定義并非憑空而來,而是依賴于每個人的定義。
你需要先把現實世界映射到那個測度和概率的世界里,甚至連你想怎么度量都得告訴我,然后我再告訴你如何去度量這個世界里所有的元素。
但是,你不能故意地給出一些非常惡劣的片段去做“映射”,那是違反“數學法則”的。既然要去另一個世界,就得守另一個世界的規矩。
假設我們把每一個事件放在一個叫做X的集合里。(對于芝諾悖論,那就是{t0時刻箭是靜止的,t1時刻箭是靜止的,t2時刻箭是靜止的….},這個集合的元素個數是無限個)
謹小慎微的數學家規定了如下一個叫sigma-代數(也就是概率論里的基本事件空間)的玩意(我們叫它A):
1、 空集(空事件)在A中,X(全事件)在A中。
2、 如果a事件在A中,那么a的補集(“a事件不發生”這一事件)也在A中。
3、 如果有a1、a2、a3、……、an這些事件(可以是可數無窮個!)在A中,那么“它們都或許發生”這一事件(即全部取并集)也在A中。
(滿足以上三個條件的集合就是一個sigma-代數)
好了,如果我們定義的映射能夠“擴張”到這么一個sigma-代數上[1],我們就可以度量這些事件的“長度”——也即它們的概率。用的工具就是測度——在這里也可以看成“概率測度”。[2]
A的定義很詭異,不過好在我們可以通過擴張的思想“生成”這么一個古怪的sigma-代數。接下來我們定義測度:定義雖簡單,但是其內涵卻更是深厚。
我們定義映射μ:A-->[0,+∞).
如果μ滿足:
1、 μ(?)=0.(空事件發生的概率為0)
2、 如果a1、a2,…,an∈A且ak∩aj=0(1≤k,j≤n,k≠j),則[3]

photo-media
photo-media

(滿足以上條件的映射就叫做一個A上的測度)
于是我們看到了測度定義的高明和狡猾之處。你得先給我一個合適的事件集合X(它可以生成A),再給我一個你的度量方法μ,然后我才出手,建立一個測度空間(概率空間),可以將它記為(X,A,μ),對這個空間中的一切,我們都可以完美地、沒有疑惑地度量出來。而所需要的,僅僅是每一個事件的長度就是其子事件長度的和,以及這個度量的方法,僅此而已。[4]
回到芝諾的那個問題。它把時間作為需要度量的目標:把時間劃分為無窮多個瞬間,沒有問題,那便對應[ts,tp]這個區間中的所有點,即時刻ts,…,tp。(把這些點和區間定義在Borel代數上)如果我們認為這段時間的長度μ([tp,ts])=ts-tp,我們就可以通過嚴格的數學證明推導出μ(t0)=μ(t1)=…=μ(tn)=0。(單點集是零測集)直到這里芝諾都是對的,確實,每一個瞬間沒有長度,箭的“連續運動”在這段時間的每個瞬間都是不成立的。

然而,更驚人的事情在后面:測度論告訴我們,μ([tp,ts])≠
photo-media
photo-media
請回顧我們對于A和μ的定義:無論是在定義sigma-代數還是測度的時候,數學家們都十分嚴格地用了“可數無窮”(countable infinity)的限制。數學家們聲稱,[ts,tp]中的所有點,即這段實數域中的所有實數,(代表芝諾劃分的每一個“時刻”)它們的個數是不可數的無窮多![5]因此它是一個“連續統”,它的長度無法由其中所有點的長度求和來度量![6](當然,存在別的方式可以,比如把[ts,tp]剖分(partition)成n份,然后這n份的長度求和還是等于原長的)
由此,“長度”的概念被完完全全確定了,而它的建立完全是一種邏輯的推演。只要你給出一個“長度”的標準,比如對一枚1元硬幣,定義了μ({得到正面})=p,μ({得到反面})=1-p,那么我們就可以依此建立一個極其復雜的概率空間:在這個空間里,你可以隨意地拋無限次硬幣,(注意是可數無窮多次!)數學家都可以清晰無誤地來描述這無窮次硬幣拋擲事件的分布。(這里,便是個二項分布)
如果我們對事件集合X和相應的度量方式μ改變了,自然它們所導致的分布也會變化:正態分布、超幾何分布、t-分布,….不過是不同樣貌的概率空間而已,實質一樣。

至此,井然有序的概率世界就被建立了:這其中有不同的概率空間,在每一個概率空間里,所有的一切都那么精確和自然,“概率”不過就是每一個事件的“長度”而已,至少在邏輯上,沒有什么不確定性和混亂了。

二、 ****從抽象中走回去:貝葉斯的方法
然而統計學家們對數學家構建的“空中樓閣”始終不滿意:就不說你們為了邏輯的完整性,必須要求在可測的sigma-代數上建立概率空間,(雖然這可能是更本質的問題)而是實際上生活中我們有時候甚至連一個對概率確切的度量μ都給不出來!正如本文最前面所提的,實際所采的樣本和理想的概率分布一定會有差別,歷史上那幾個做拋硬幣實驗的人也不過只能把概率的值無限逼近0.5,但絕不可能精確相等。Lebesgue之后,Kolmogorov等人弄出大數定律,告訴了在數學上這事情非常合理。[7]但是統計學家們還是不買帳:數學家們總是花很大的力氣,弄一些有關“存在性”的證明,但是他們最想知道的是這些具體的、細微的差別如何衡量,如何預測與推斷!(也只有這樣才具有真正的“實用價值”)
后來,貝葉斯的方法橫空出世,驚艷地站到了人們的眼前,在之后的幾十年時間里被人稱贊不斷,同樣誹謗不斷,諷刺性地變成了一個“Controvesial Theorem”。[8]只是這個時候,偉大的貝葉斯早已長眠于地下。(他生活的年代實際上是18世紀!)
實際上貝葉斯從未完整地提出過一個“貝葉斯”的理論。他生前不過是考慮了一個“逆向概率”的概念:相對于正向概率的問題:“設袋子里面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大”。有這么一個逆向概率的問題:“我們事先不知道袋子里面黑球與白球的比例,而是閉著眼睛摸出幾個球。觀察這些被取出球的顏色之后,我們可以就此對袋子里面的黑白球的比例作出推斷。”
而貝葉斯的公式的實質就是用了我們都十分熟悉的“條件概率”的公式:[9]

photo-media
photo-media

但是一如“測度”的定義,簡單的公式卻往往具有無窮的力量。那是思想的力量。
貝葉斯的公式在20世紀席卷了概率論。并且導致了直到現在還喋喋不休的“貝葉斯學派”和“頻率學派”之爭。
附上一張趣圖:
photo-media
photo-media

呃…..我想對兩邊都進行吐槽:左邊的老學究嚴格遵守“置信區間”的推斷方法,極度理性。而右邊的“貝葉斯學派”看到了儀器“貌似說謊”這么一個事件,然后直接推斷:“嗯,那就是說謊了。”[10](圖片上沒有給出其它的先驗信息)實則表現與賭徒無異……
實際上,頻率學派的統計學家總是根據隨機事件發生的頻率,或者總體樣本里面的發生事件的頻數個數來賦值概率;貝葉斯主義者則根據未知的命題來賦值概率。這樣的理念差異也直接導致貝葉斯方法的適用性更廣。
也正是因此,貝葉斯的方法以前所未有的速度被立即廣泛用到了幾乎生活的各個領域:它變得無處不在。回顧人類發展的歷史總是這樣,當數學界為某個概念是否合理吵得不可開交的時候,這個東西可能早就被世人用得滾瓜爛熟了。比如,柯西和康托之前的微積分。(用在了結構力學、流體力學、建筑學、經濟學中……)
當然了,貝葉斯學派的統計學家絕不可能是在瞎蒙,概括而言他們總是做兩件事情:[11]
1、算出各種不同猜測的可能性大小。
2、算出最靠譜的猜測是什么。第一個就是計算特定猜測的后驗概率,對于連續的猜測空間則是計算猜測的概率密度函數。第二個則是所謂的模型比較,模型比較如果不考慮先驗概率的話就是最大似然方法。
我這里就舉一個機器學習的例子,這一個例子就足以讓第一次接觸的人感觸良多了。[12](同樣參考了劉未鵬的博客)
這個例子是Google系統利用統計語言模型來進行語言處理,對于多國語言間的翻譯來說,“分詞”是必要的第一步。
所謂分詞,即是把一句話:“清華大學考試周真的是慘絕人寰啊。”分成一串詞:清華大學 /考試周/真的/是/慘絕人寰/啊。(當然,“清華大學考試周”也可以作為一個詞)
而目前Google所用的方法,是上世紀90年代郭進提出的:
我們假定一個句子S可以有幾種分詞方法,為了簡單起見我們假定有以下三種:
A1, A2, A3, ..., Ak,
B1, B2, B3, ..., Bm,
C1, C2, C3, ..., Cn.
其中,A1, A2, B1, B2, C1, C2 等等都是漢語用詞。而最好的一種分詞方法應該保證分完詞后這個句子出現的概率最大。也就是說如果 A1,A2,..., Ak 是最好的分法,那么P(A1, A2, A3, ..., Ak)>P (B1, B2, B3, ..., Bm),并且 P (A1, A2, A3, ..., Ak)>P(C1, C2, C3, ..., Cn) 。因此,只要我們利用上回提到的統計語言模型計算出每種分詞后句子出現的概率,并找出其中概率最大的,我們就能夠找到最好的分詞方法。
這個模型應該很好理解,而問題的關鍵就在于怎么找到這個“最大”的概率。按照傳統理論,對一組詞P(A1,A2,A3,…,Ak)=P(A1)P(A2|A1)P(A3|A2∩A1)…P(Ak|Ak-1…A1)。那么這個動態規劃的遞歸辦法看起來似乎很好用,這k個條件概率中的每一個都依賴于前k-1個概率的值,(如P(Ak|Ak-1…A1)依賴于P(Ak-2)…P(A1)))但是實際上當n很大的時候這種計算對于數據存儲的要求和時間復雜度都會急劇增加。
于是,這里我們引入貝葉斯的辦法:我們認為P(Ak|Ak-1…A1)就僅僅依賴更少的前有限個詞的概率,極端的情況就是僅僅依賴1個:P(A1,A2,A3,…,Ak)就變成了P(A1)P(A2|A1)P(A3|A2)…P(Ak|Ak-1)。不僅問題的復雜度大大降低,而且我們甚至還可以證明,這種分法將是極其有效的。(比如那句“清華大學考試周真的是慘絕人寰啊。”)
這種思路也被稱為“樸素貝葉斯方法”(Naive Bayes),各大郵箱基本上也是采用類似的方法來剔除“垃圾郵件”的。(依據“垃圾字詞”出現的概率)
關于這種方法的優越性,有一篇論文作了詳細的證明:
http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf
《分析概率論》的作者,概率論奠基人之一的法國數學家拉普拉斯曾說:“對于生活中的大部分,最重要的問題實際上只是概率問題。你可以說幾乎我們所掌握的所有知識都是不確定的,只有一小部分我們能確定地了解。甚至數學科學本身,歸納法、類推法和發現真理的首要手段都是建立在概率論的基礎之上的。因此,整個的人類知識系統是與這一理論相聯系的……”
貝葉斯的廣泛應用就充分說明了這一點。它雖然存在理論層面的爭議,但卻早已經如火如荼地被用在了人類生活的各個領域,并且幾乎無處不在、到處大顯神通。
然而,在哲學上,貝葉斯的方法終究還是危險的。一些問題被它的功能掩蓋了,但這并不意味著這些問題能永遠被遮蔽,而永不發作。

三、 ****最后的探討:貝葉斯方法的科學合理性?
我從來不認為哲學與科學應該分開。雖然在本文的第一段,我給出了現代數學對于那個關于“度量”的哲學命題的決斷性的“數學式回應”,但這并不意味著數學能解決所有的問題。實際上,如果說數學為所有的自然科學打下了理論的基礎的話,哲學往往更上一層,它考慮了許多數學家都還來不及關心的問題。比如,讓我們再次回到三百年前貝葉斯考慮的那個球的不同顏色概率的問題:你怎么可以在什么都不知道的情況下,那么任意地玩弄“概率”的值呢?
如果這個例子還不夠明顯,讓我們重新來考慮這兩個經典的問題:
1、 一個家庭有兩個孩子,其中一個是男孩,問另一個也是男孩的概率多少?
2、 一個家庭有兩個孩子,其中一個男孩是周四出生的,問另一個也是男孩的概率多少?
實際上,每次探討這樣的問題,我內心都會感到一種無法逃避的痛苦:如對于第一個問題,如果沒有“那個家庭”,那么生出一個男孩的概率必然是1/2。可是對那個家庭來說,(相當于我們換了一個樣本空間)一共就是{男男,男女,女女}三種情況,那么即是1/3。
而第二個,即那個周四出生男孩的概率,可以是1/2,可以是1/3,甚至還可以是13/27(把樣本空間當成{周一男周二男,…,周日男周日男}共28-1=27種組合,注意周四男+周四男是一個事件)或者云云(還有不少取法)……
和事佬這個時候一定站出來說了:哎呀,你看問題的角度不同,(即在不同的概率空間中)當然這個“概率”的值也就不一樣了啦。但是我想說的是,如果“概率”真的變成了一個純數學的概念之后,貝葉斯的概率推斷和一個語義學游戲何異!概率問題就將變成一個具有“多義性”的邏輯游戲。很顯然,這不僅違背直覺,也很令人,至少讓本人不太舒服。
也因此,對于這類問題更深入的探討就演變為了邏輯甚至哲學的探討,變得再次脫離了這個世俗的世界。武漢大學哲學系的陳曉平教授甚至專門把“貝葉斯方法”和“休謨問題”整理在一起,出了一本厚厚的專著。
這本書涉及了很多問題,而其中最核心的問題還是由休謨引出的。休謨在《人性論》第一卷的《人類理解研究》(1758年)中談到:“過去每天早上太陽從東方升起,所以明天早上太陽還會從東方升起。”“過去手指靠近火總被灼痛,因此下一次手指靠近火還會被灼痛。”他認為,這種簡單的歸納推理,即“從過去的事情推論現在的事情”這種歸納沒有“理性依據”,不過是人的“心理本能”。
他還給了一個論證:概括而言,首先一切推理只分兩類,一類是解證的推理(英文用的是demonstrable argument,也就是現代邏輯學中的演繹推理),另一類便是經驗推理(太陽和火的例子便是其中之一)。演繹推理只涉及觀念間的關系而不涉及實際事物,是只通過理性的思想便可以獲得的。(比如,如果我們承認一個前提“1+0=1”,那么我們將毫無疑問地推出“1+0+0=1”,這種“推出”的關系是毋庸置疑正確的)因此,演繹推理具有與具體事實無關的必然性。但歸納推理就不一定了,即使我們承認前提“昨天太陽升起了”,這個前提并不像“1+0=1”那樣能夠百分百推出“今天太陽升起了”這個命題的正確性。因此經驗推理(歸納)具有與具體事實相關的或然性。
接著,休謨開始引入“因果關系”的概念:他認為,在進行經驗推理的時候,由于所謂的“原因”和“結果”是兩個完全獨立、不同的對象,完完全全分離出來的單個對象絕對不具有另一個對象的狀態和屬性。因此在任一歸納推理中,前提與結論之間不存在任何必然性的關系。于是這么一來,麻煩就大了。因為這種論斷也是違反直覺的,實際上根據休謨的說法,基本上我們日常生活中的大多數論證都是屬于“經驗推理”這一范疇的無效論證。
實際上,休謨兇殘地、冷酷地指出:雖然“習慣就是人生的最大指導。”但這種指導終究不過是一種“本能或機械的力量。”也就是說,人類自以為傲的現代科學仍然不過是在本能構建下自我安慰的產物。休謨的這種否定并非一種世俗的否定,而是一種終極意義上的否定。
因此,他對于歸納法合理性的質疑等同于對現代科學合理性的質疑,這種質疑即使放在今天仍然是超時代的,也是哲學命題“永恒性”的體現:
我們可以把他的結論“歸納”為以下三點:(1)經驗科學離不開歸納法(2)歸納法的合理性是不可證明的(3)因此,經驗科學不存在合理性。
因此,休謨被認為是“懷疑主義”的代表,他的思想在崇尚科學的現代社會基本上是不入流的。然而這個問題恰恰是科學哲學理論中核心的核心。
如果我們能搞清楚這個問題,或許我們就能明白我們的那種做法:通過建立不同的樣本空間,“歸納”得到迥異的不同概率值。這件事情究竟是合理的,還是多余的?是否有一種統一的辦法來解釋這種現象?(因為對不同的問題,可以有不同的樣本空間的劃分方法,這幾乎是無窮無盡的,一個嚴謹的科學體系勢必需要一個統一的規定和說明)
休謨曾經提出了這樣8條原則來判斷原因和結果:(1)原因和結果必須是在空間上和時間上互相接近的。(2)原因必須先于結果。(3)原因與結果之間必須有一種恒常的結合。構成因果關系的主要是這種性質。(4)同樣的原因永遠產生同樣的結果,同樣的結果也只能發生于同樣的原因。(5)當若干不同的對象產生了同樣的結果時,那一定是借著我們所發現的它們的某種共同性質。(6)兩個相似對象結果中的差異,必然是由它們互相差異的那一點而來。(7)當任何對象隨著它的原因的增減而增減時,那個對象就應該被認為是一個符合的結果。(8)最后一條原則:如果一個對象完整地存在了任何一個時期,而卻沒有產生任何結果,那么它不是那個結果的唯一原因,而還需要被其他可以推進它的影響和作用的某種原則所協助。
一般認為,前三條是主要的,后五條是附加的。雖然本人認為這種冗余的說法具有內在的循環論證(他自始至終沒有證明因果與經驗的關系,因果本因高于經驗存在,然而經驗的影子卻無處不在),然而這8條原則確實值得引起我們的反思。
然而,貝葉斯學派的統計學家們對于“歸納”卻多有自己獨到的認識(與休謨的看法決然相反):這其中又牽扯到了極其繁多的邏輯問題,對此可以參閱哈金(Ian Hacking)關于改進下的“主觀主義概率論”、以及他所強調的“給定事實后的概率”(即驗后概率≠條件概率)的論證和說明。[13] 以及凱恩斯(John M. Keynes)關于“無差別原則”的論述(即所謂的如何劃分一個“等概事件”,一個著名的關于此的悖論是1889年J. Bertrand提出在一個確定的圓里挑一條弦,問弦長大于內接等邊三角形長度的概率。結果通過長度、角度和面積的均勻分布進行計算得出1/2,1/3,1/4三個答案,成為一個著名的悖論),還有便是貝葉斯方法中最為人詬病的“試驗機制”:也即是先提出假設,如果與經驗與假設相符就接受,不然就當做否定。但這個試驗到底如何進行,假設如何提出?怎么通過經驗修正假設?普萊斯(R. Price)在發表貝葉斯論文的時候就對此心存疑惑,并在他的論文里特意加了說明。(他認為貝葉斯的無差別假設存在一個邏輯的問題[14])實際還是那個生小孩的問題,劃分是有序還是無序的?概率是1/3還是1/2?
最后,把休謨數百年前的問題放在概率論的背景下作最后的歸納:
1、 我們總喜歡對一個隨機事件假設“獨立重復試驗”,但這合理么?根據何在?
2、 事件和事件之間真的存在所謂的因果關系么?(而不僅僅是時間的先后)如果存在的話又如何描述呢?

這兩個問題,回答不了了。

注釋:
[1] 實際上,一般常用的即是由X上全體開集生成的一個Borel代數,這個sigma-代數里有開集、有閉集、有半開半閉集合……有我們一般人思維能構建出的大多數集合。為了方便地使用“擴張”的思想,數學家們還定義了π系、λ系、半環、環等等……(與之相關的一個著名定理是1952年的Dynkin π-λ定理)
[2] 數學家們發現,即使是在[0,1]的實數域上,也會存在一些無法測量的集合。(它們的存在還偏偏非常多,遠遠多出日常生活的想象。這便是奇怪的數學世界的特性。)為此,我們需要把測度定義在嚴格的一類“可測集”上,一般也就是在一個sigma-代數上。
[3] 這條性質又叫做“可數可加性”。即獨立事件的概率之和等于它們和事件的概率
[4] 比如對一個起始點和終點分別為a和b的直路[a,b],我們首先生成一個X,它包含所有形如[a,b]的直路。(注意,直路之間還可以組合,縮長縮短)然后我們認為一條直路[a,b]的長度μ([a,b])=b-a。于是我們就定義了一個測度空間。若如果我們認為長度不是b-a,而是a-b,(a-b)/2,(a2+b2)^(-1/2)等等......則就能夠建立新的測度空間。
[5] 不可數意味著這個區間無法與自然數集N={1,2,…,n,…}建立1-1映射。(即康托發明的“等勢”概念)
[6] 即無法“順序”(遞歸)地進行求和:我們無法寫出

photo-media
photo-media
,而只能是
photo-media
photo-media

[7] 在n-->∞的時候事件的期望“依測度收斂”,這是一種比Cauchy定義的數列收斂更弱的收斂。
[8] Bayes' Theorem in the 21st Century,Bradley Efron,Science 340, 1177 (2013); DOI: 10.1126/science.1236536
[9] 這個定理在概率論中得到嚴格證明依賴于Radon-Nikodym定理(1930)。Hans Freudenthal在1936年將其推廣。
[10] 貝葉斯學派的統計學家并不關心這個假設是否絕對正確,它只要能“近似正確”,然后就可以通過獲得更多的信息進行修正。
[11] 《數學之美番外篇:平凡而又神奇的貝葉斯方法》,劉未鵬,http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
[12] 本例摘自Google研究員吳軍的《數學之美》的第二章,“中文分詞”。
[13] I. Hacking, Slightly More Realistic Personal Probability, Philosophy of Science, vol. 34(1967), page 311-325
[14] Bayes, T & Price,R. (1763) "An Essay towards Solving a Problem in the Doctrine of Chances", 轉引自 E.S. Pearson and M. G. Kendall, Studies in the History of Statistics and Probability, Griffin, 1970, page 134, page 143

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容