《信號與噪聲》

▍概述

本書作者納特西爾弗(Nate Silver)曾經在棒球預測和選舉預測兩大領域都取得了成功。在棒球預測中,他建立的PECOTA系統(PECOTA:“投手經驗比對與優化測試算法”的首字母縮寫)在2003年~2008年領先于其他預測系統;在選舉預測中,他建立的538網站(取自選舉人票的總票數538張)在2008年的美國總統競選中,命中了總共50個州中的49個州。

在《信號與噪聲》中,西爾弗對“預測”進行了全面的審視,書中對房市、選舉、棒球、天氣、地震、經濟、傳染病、NBA、國際象棋、撲克牌、股票、氣候,甚至恐怖襲擊等諸多方面的預測進行了分析,并提出了一套完整的預測框架。

雖然涉獵眾廣,且“預測”在一般意義上被認為是一個技術性的詞匯,本書卻并不是本“手把手”的操作書,而是一部方法論。

在絕大部分篇幅里,我們找不到任何的“魚”:具體的預測技巧。相反,作者在一遍又一遍(上述13個領域構成了本書的13章)地教授“漁”:預測的目標怎么定,預測的質量有多高,影響的因素在哪里,改進的方法有什么。

▍一、前提假設

既然是方法論,當然會有一個前提假設。

本書假設的前提有三點:

1、世界上存在著客觀真理;

2、人類無法直接認識客觀真理;

3、人類可以通過對自己觀念的修正來不斷地接近客觀真理。

▍二、前七章概述

當然作者不是一開門就拋出這套理論,不然馬上就會遭到異議。因為作者所提出的和我們——至少最近二三十年的幾代——所接受的系統性的科學教育中隱含的本質是相悖的。我們接受的科學主義的核心是:通過科學可以認識世界——換個說法,即客觀真理。

為了讓讀者能循序漸接受,全書的前七章實際上都在鋪墊。

簡要羅列前七章主要領域的預測分析:

(注:理論指理論根基,模型指數據模型,數據指數據質量,預測指預測效果;另外差、中、好是我總結的,不代表作者觀點)

1、房市:理論差、模型差、數據差、人為影響大,預測差;

2、選舉:理論中、模型中、數據中、人為影響大,預測差;

3、棒球:理論好、模型中、數據好、人為影響小,預測好;

4、天氣:理論好、模型中、數據好、人為影響小,預測好;

5、地震:理論差、模型差、數據差、人為影響大、預測差;

6、經濟:理論差、模型差、數據差、人為影響大、預測差;

7、傳染?。豪碚摬?、模型差、數據中、人為影響大、預測差。

實際上,“房市”和“經濟”是同一類。

我們看到,預測基本是由“人”、“理論”、“數據”三者相互作用而產生的(下文我將它們稱為“預測三要素”,當然此處也不代表作者觀點)。好的預測需要“天時地利人和”:好的理論、好的模型、好的數據和減少人為影響同時作用。若一個元素不好,甚至每個元素都不好,預測的結果也不會好。

▍三、預測三要素:人

之前不是說過作者的538網站在選舉預測中大獲成功嗎?為什么選舉預測總體上還是很差呢?

因為那只是個例。選舉期間,真正面對廣大受眾的,在新聞、訪談、社論中出鏡、執筆的專家們所做的預測,準確率是極低的。作者以廣受歡迎的政治節目“麥克勞夫倫討論小組”為例:小組成員的平均預測準確率是49%~52%,和擲硬幣猜人頭的概率相當。

“麥克勞夫倫討論小組”中的成員可謂名副其實的“圈內人士”:他們來自《芝加哥論壇報》、《??怂剐侣劇?、《新聞周刊》,民調的數據也很容易獲取,為什么他們的預測效果仍然不好呢?作者給出的答案是:立場。

保守派不會預測自由派當選,自由派也一樣。更重要的是,有時預測者并不在意預測的結果,他們更在意過程——是否吸引了足夠多的受眾。于是他們的選擇是:堅持觀點,和加大嗓門堅持觀點。

也就是說,預測者們專注于觀點本身——無論對錯——帶來的影響力,而不關心結果如何。在現實中能被我們輕易識別出的,也正是那些站定派別后就不再換邊的人。

但選舉總會有結果,與此相比那些需要更長時間才能檢驗結果的領域,比如地震和經濟預測上,在謀求影響力的推動下,不斷產生“青蛙預測地震”或“橄欖球超級碗大賽冠軍預測經濟走勢”這樣的論調就不足為奇了。

回頭再看,作者的538網站之所以能取得成功,僅僅因為西爾弗盯住民調作為主要指標——競選級別越高,越接近最終大選,民調的結果就越穩定——而摒棄了人在其中的影響。

與此類似,棒球和天氣之所以能取得成功,很大一部分原因也在于預測者們摒棄了個人的好惡,專注于從數據中挖掘證據。

▍四、預測三要素:理論

但是,如果過于強調數據的作用,就會掉入“數據決定論”的陷阱。事實上,作者認為,在人、理論、數據這三者中,數據的重要性反而是最低的,一個正確的理論遠勝于千萬數據。

例如棒球。棒球運動中,幾乎所有運動員的表現都能被量化,但正因為數據龐雜,如何選擇合適的數據成了預測的關鍵。最好的理論需要的并不僅僅是棒球場上量化的數據:本壘打數、保送數——反映了球員現在的能力;也需要結合棒球場外無法量化的數據:態度、自信心——反映了球員未來的潛力。

再如天氣。最開始的天氣預測實際上是純數據的:統計“歷史上的今天”降水的平均概率。很顯然我們都知道不能僅靠過去去預測未來:現在天氣預測先將大氣層劃分為一塊塊的“網格”,并建立模型預測它們之間相互作用時對天氣的變化和影響,精度取決于“網格”的密度。隨著科學發展,和對氣流、溫度變化的持續研究——還有越來越強大的超級計算機的幫助,我們已經能夠把大氣的“網格”劃分得越來越小。

而對于地震、傳染病,正因為目前我們對它們的成因或傳播方式的研究還有諸多盲點,所以目前的模型都有各自的局限,預測效果也不好。

▍五、預測三要素:數據

雖然數據的順位不如理論和人,但也是很重要的——經由理論建立的模型需要投入大量的數據才能運算。

但是數據也有自身的問題:太多了。在如今的信息社會,每天都會產出大量的數據,其中真實數據的產出速度遠不如虛假、重復數據的產出速度——比如作為一個直觀的案例,可以打開微博和朋友圈看看大多數信息的質量——有用的信號太少,噪聲太多。

這也是影響經濟預測重要因素:美國政府每年公布的數據有4.5萬個,而私人數據提供者甚至能追蹤400萬個不同的統計,其中真正能起到指標意義的數據,只有絕少的一部分。

▍六、預測的偏見

預測需要一個好的理論,但好理論或壞理論都只有人才能建立。

模型結合了理論和數據,但對模型效果的檢驗需要更多的數據和——人的參與。

此外一些數據本身就是“偏見”的產物:比如棒球運動員的“自信心”,需要人——球探——依靠主觀經驗去量化。

我們能看到,在預測中“人”的影響無處不在,而人又是帶有偏見的,所以大部分的預測難免會被偏見所影響。

▍七、預測的框架——貝葉斯定理

前七章畢,我們眼前有兩個問題:

1、人、理論和數據都有各自的局限,如何組織它們?

2、預測難免帶有人的偏見,有沒有帶著人的偏見也能作出好預測的方法?

對此,作者提出了一套預測的框架——貝葉斯定理。

在這里只簡要介紹下如何應用貝葉斯定理:

1、承認人在預測前就帶有某種偏見。

(舉個例子,比如我發現前方蹲著一只生物,我想預測下它到底是什么,此時我有一個初始偏見:遇見一只未知生物時會先下意識地以為它是狗。)

2、將這種偏見表示為概率的形式。

(稱作“先驗概率”,此時我對我的偏見進行主觀量化,我認為該生物是狗的概率為60%)。

3、當更多事件發生時,分別計算出先驗條件存在和不存在時相關事件發生的概率。

(我聽到了一聲“汪”。假如它是狗,那么它發出“汪”的概率是99%——考慮到有些狗可能喜歡說外語,比如“喵”;若非狗,它“汪”的概率是0.5%——考慮到可能有某些大概會說外語的貓,和真能說外語的八哥)。

4、將先驗概率用相關事件下的不同概率調整后,計算得到后驗概率,這就是你對事件的預測

(最終得到的“后驗概率”中,我預測蹲著的生物是狗的可能性變成了99.69%)。

5、此時的“后驗概率”就變成了你的“先驗概率”。

(也可以被看作是這件事對你的影響程度,比如我再往前走,遇到了另一只蹲著的生物,此時我的初始偏見就變成了:它是狗的可能性是99.69%)

可以看到,應用貝葉斯定理時,即便帶有初始偏見,只要經過足夠多的事件,不斷地檢驗和修正后,我們的偏見是可以被糾正到很低的水平的——也就是,無限地接近客觀真理。

再看看貝葉斯定理下的預測三要素:人既是提供偏見——先驗概率的,又是做出客觀預測——后驗概率的;一個好的理論能保證這一過程的順利進行;數據——大量持續的數據——是使貝葉斯定理不斷應用,后驗概率逐漸接近客觀真理的保障。

▍八、九至十三章

最后幾章主要是應用貝葉斯定理時需要注意的問題,歸根結底還是人、理論和數據。

對于人的偏見問題、立場問題,作者幾乎在每一章都苦口婆心地嘮叨了一遍。例如股票市場中,為什么股票經紀人有沒有預測到熊市都會堅持買入?因為他們的考核周期只有90天,而股市在90天內崩盤的可能性只有4%,無論熊市還是牛市,堅持買入對他們最有利。

對于理論,假如現有的模型失敗了該怎么辦?作者建議啟用備用模型——一個合理的基準預測,比如選舉預測中,備用的模型是選還在臺上的那個。

對于數據,重要的是篩選出信號——有用的那個。我們都知道GDP在公布之后還會被不斷被修正,可是你知道修正的范圍有多大嗎?1965~2009年美國政府修正過的季度GDP中,誤差幅度為±4.3%——最初估計為超常增長的,實際上也有可能在衰退。原因在于GDP估值并沒有一個公認準確的概率市場——類似于股市對股票的估值,雖然這也是不確切的——實際上大部分數據都如此,因此對于數據需要在應用中注意不斷修正。

書中于此相關的論述頗多,就不加贅述了。

▍九、競爭的水位——預測得準還不夠

需要特別指出的是,在現實世界里,并不是掌握了貝葉斯定理,做幾個準確的預測就能掙錢。例如在撲克牌領域,即便你的預測能達到95%的準確度,依然有可能輸,因為頂尖玩家預測的準確度是99%。

在競爭性強的領域,特別是零和博弈的條件下,預測能力最差的玩家最終都會被淘汰。當那些準確度達到85%的玩家都因為虧損而離場后,準確度為86%的玩家就開始虧錢了,順此而上,最終只有最頂尖的玩家才能生存。

如西爾弗所說:“競爭為人們設定了‘水位’,而個人的利潤只是‘冰山一角’,漂浮在水面的僅僅是一小部分競爭優勢,而隱蔽在水面下支持它的,是一個由汗水鑄成的巨大堡壘?!?/p>

▍十、作者的終極理想

作者的終極理想是,如果人人都用貝葉斯定理,那么世界大同將不是夢。

引自書中,貝葉斯定理的收斂性:以股市為例,對市場走勢持不同判斷的交易者對各自觀點進行長期修正后收斂于一點

從表面上看這是合理的,因為不管大家一開始的想法有多大的差距,在嚴格遵循貝葉斯定理的框架時,經過對各自觀念的長期、持續的修正后,最終都將收斂于一點。

但這里其實有一個問題,“不斷修正”時需要大家都取相同或接近的概率,而在現實中并沒有提供這一概率的公認市場。而讓人們從各自的主觀出發去估計這一概率——顯然大家的估計都是不同的——難免會導致后驗概率的不斷震蕩,最終自由派和保守派是很難收斂到一個點上去的。


《信號與噪聲》
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,001評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,786評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,986評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,204評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,964評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,354評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,410評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,554評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,106評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,918評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,093評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,648評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,342評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,755評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,009評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,839評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,107評論 2 375

推薦閱讀更多精彩內容