2018-02-24
如何利用貝葉斯定理指導認知更新??
? ? ? ? 最近經常接觸到貝葉斯定理,對這個定理的理解漸漸深入,覺得它對人的認知更新有所幫助,故想介紹介紹貝葉斯定理,并寫寫它和認知更新的聯(lián)系及其對我們的啟發(fā)。
貝葉斯定理是什么?
? ? ? ? ?這個定理用簡單的文字來表述就是:后驗分布取決于先驗分布與似然度的乘積。借助數(shù)學符號來表達的話是:
? ? ? ? ?后驗分布 = 先驗分布×似然度
? ? ? ? ?先驗分布是沒有觀察到數(shù)據(jù)之前的分布,可以簡單理解為已由信息做出的假設。
? ? ? ? ?似然度是在假設的條件下得到觀察的數(shù)據(jù)的可能性。
? ? ? ? ?后驗分布是利用觀察到數(shù)據(jù)更新后的信息。
? ? ? ? 通過一個例子來理解這個定理吧。假設我們在某所大學遇到一位男同學小明,我們要想知道小明是數(shù)學或者法學專業(yè)學生的可能性。根據(jù)經驗我們假設小明是數(shù)學專業(yè)學生的可能性是四分之一,也就是說數(shù)學專業(yè)學生數(shù):法學專業(yè)學生數(shù)為1:3。這代表了我們的先驗分布。然后我們走過去和小明交談,觀察到小明比較內向,現(xiàn)在你覺得小明是數(shù)學專業(yè)學生的概率是多少呢?根據(jù)貝葉斯定理,我們還需要知道似然度,也就是假設小明攻讀數(shù)學專業(yè)或者法學專業(yè)的條件下他內向的可能性。這里我們假設數(shù)學專業(yè)四分之三的學生內向,法學專業(yè)四分之一的學生內向。那么似然度為3:1 。因此,后驗分布是3: 3,也就是說小明是數(shù)學專業(yè)學生的可能性是百分之五十。
? ? ? ?上面例子中使用的是離散的分布的貝葉斯定理,下面我們看看連續(xù)分布情況下該定理的示意圖。?
? ? ? ? 用黑線表示的后驗分布等于用紅線表示的先驗分布乘以用藍線表示的似然度。不難看出,后驗分布概率最大值出現(xiàn)在先驗分布和似然度都相對較大的位置。先驗分布或者似然度概率特別小的位置,其后驗分布概率一般也比較小,比如 .2 或者.6 的位置。當然,相同似然度情況下,使用不同先驗分布得到的后驗分布是很不相同的。如果先驗分布最弱(如圖a),即我們對某個事物沒有任何信息的時候,該事物每種情況可能性一樣,那么后驗分布與似然度完全一致,也就是說后驗分布完全由觀察到的數(shù)據(jù)決定。隨著先驗分布由若變強(如圖a到圖c),我們的后驗分布越來越接近先驗分布,也就是說先驗分布起的作用越來越大,包含新信息的似然度的影響越來越小。從另外一個角度來說,如果先驗分布比較弱,那么跟新需要的似然度也不用特別強,也就是說我們需要觀察的數(shù)據(jù)量比較小。
貝葉斯定理與人的認知有什么聯(lián)系呢?
? ? ? ? 從例子里面可以看出,我們可以根據(jù)新獲取的信息:小明同學有點害羞,利用貝葉斯定理來更新我們對小明所在專業(yè)的判斷。籠統(tǒng)來說,人可以利用新的數(shù)據(jù)、信息、和知識,不斷更新自己對世界的認知。也就是說,人的認知是貝葉斯式的。人的飲食習慣的改變就是一個例子。每個地方飲食的標準和常態(tài)不同,一個人到了另一個地方,會慢慢更新對正常飲食的看法。比如,一個從來沒見過正常人吃雞爪的美國人到了中國,發(fā)現(xiàn)這里的人很愛吃吃雞爪,然后慢慢地就習慣了,覺得吃這些很正常。同樣的,一個從來只吃全熟牛肉的中國人到了美國,發(fā)現(xiàn)這里的人很愛吃帶血的牛肉,然后慢慢地也習慣了(盡管可能是被迫適應的),甚至覺得吃五分熟的牛肉才是正常的。還有一個比較好的例子是國人對女性審美的變化。幾十年前最受人歡迎的是鵝蛋臉的女星,比如鄧麗君,劉曉慶。后來,隨著外國影視作品進入國人視野,大量西方美女那種V字臉慢慢更新了人們對女性的美的認知。因為人們對美女臉型的認知被“平均”了,所以人們覺得中西混血兒最漂亮。然而在西方,特別是很少接觸亞洲人的地方,大部分人并不會覺得歐亞混血兒最漂亮,因為他們的審美認知里面并沒有亞洲美女。
這種聯(lián)系對一個人的進步有何啟發(fā)?
? ? ? ? 一個人對事物的認知不是百分之百確定的,但是不確定性有高低之分。如果某個人的堅信某個觀點,那么該觀點的不確定就小,代表這個觀點的概率分布就很窄。這種不確定性可以用概率分布來描述。比如,下圖中黑色線代表的觀點強于藍色線代表的觀點。(可以理解為今晚打麻將你贏錢的可能性)
? ? ? ? 接下來,我們還可以把一個人的進步看成是能力或者對事物認知分布的更新,那么根據(jù)貝葉斯定理,一個較弱的認知分布和強似然函數(shù)是更有利于更新的。
強化似然度,“stay hungry”
? ? ? ?似然度包含了新數(shù)據(jù)帶來的信息。強化似然有兩種途徑:一是增加新數(shù)據(jù)的量,二是增加新數(shù)據(jù)的質。
? ? ? ?增加數(shù)據(jù)量的道理比較明顯。拿英語聽力的提升來說就是:多聽能夠聽得懂的,而不是去聽那些看字幕才能聽清的文章。
? ? ? ? 數(shù)據(jù)的質可以通過多去嘗試那些先前經驗或者認知邊緣及邊緣外的事物來增加,利用嘗試中獲得的經驗和信息不斷自我更新。(想來這也從另外一個角度說明“走出舒適區(qū)”對認知以及能力更新的作用)用英語發(fā)音的改進來說明的話就是:一直聽標準口音的英語學習者的發(fā)音很可能不如聽過各種口音的人的發(fā)音好。
? ? ? ? 相比于數(shù)據(jù)的量,數(shù)據(jù)的質對更新的作用更大。在一個環(huán)境下生活工作一段時間后,人們的認知水平或者某些能力的更新會漸漸達到一個穩(wěn)定狀態(tài),可能是因為我們習慣于對這個環(huán)境的認識,先驗分布變強了,然而獲得的信息的質不會發(fā)生太多改變,似然度不會有什么大的變化,因此認知或者能力的更新變慢甚至可能是停滯的。還是拿英語學習來說明。我個人覺得到國外學習前半年的時候聽力進步比較快,后來就感覺不到明顯進步。可能是在英語環(huán)境生活一段時間后,各種學習和生活場景下的英文都基本能聽懂了,英語輸入的質沒有太大變化。
? ? ? ? 如何才能更快的更新呢?答案是 “stay hungry”。以饑餓般的狀態(tài),主動獲取新數(shù)據(jù)和新信息。當同一類新數(shù)據(jù)和新信息達到一定量以后,接著接觸另一種新信息,如此循環(huán)反復。
弱化先驗分布,“stay foolish ”
? ? ? ? 強調弱化先驗分布的原因在于:如果一個先驗分布與實際偏差很大,那么需要很多很多觀察數(shù)據(jù)才能把這個觀點更新到接近實際情況。強大的先驗分布往往狹窄、單一、缺乏彈性,表現(xiàn)在人身上就是固執(zhí),固守成見。固守成見不僅會大大減緩更新速度,而且可能導致我們在錯誤的道路上越走越遠。正如馬克吐溫所說“It ain’t what you don’t know that gets you into trouble. It’s what you know for sure that just ain’t so.” 每個人都帶著成見去認識世界,難免有所偏差,所以懷著“空杯”或者“無知”的心態(tài)去接觸周圍的事物才是正途。另外一個方法是保持開放心態(tài),聽取反面觀點和支撐反面觀點的證據(jù)。 ??
參考資料:
Introduction to Bayesian Statistics, part 1: The basic concepts, by Chuck Huber
A visual guide to Bayesian thinking, by Julia Galef
為什么人們覺得混血兒和V字臉漂亮,大象公會
P.S.
獨樂樂不如眾樂樂,從分享中獲取快樂。不奢望大家看完本文后覺得貝葉斯定理很有趣,僅希望這些想法對大家有所啟發(fā)。如果對貝葉斯定理及其與認知的關系的闡述有誤,歡迎各位指正。也歡迎對文章的撰寫提供反饋,助我"更新"。