7.《赤裸裸的統計學》

第一章?

統計學的一個核心功能就是使用手中已有的數據進行合理推測,以回答那些我們還未掌握所有信息的“大”問題。簡言之,我們能夠使用“已知世界”大數據來對“未知世界”進行推斷。

面對難以接受的風險,如果個人和企業都無法規避,就回通過其他方式尋求保護。保險業應運而生。

第二章 描述統計學

從棒球到收入,對大量信息進行歸納是處理數據時最基本的任務。美國有3.3億居民,一張記錄每位美國人的姓名和收入的電子表格包含了我們衡量這個國家經濟健康狀況所需的所有信息,但這張信息過量的表格其實相當于什么都沒有告訴我們。這就是讓人覺得諷刺的地方:經常是數據越多,事實越模糊。因此,我們需要簡化,將一系列復雜的數據序列減少為幾個能夠起描述作用的數字,正如奧運會體操比賽中,我們將一套多難度組合的復雜動作濃縮為一個得分:9.8。

好消息是,這些描述性數據為我們提供了一個針對某一現象的可操作、有意義的概括,這也是本章所要講的。但壞消息是,任何一種簡化都會面臨被濫用的危險。

描述任務的第一步通常是估量某套數據的“中間位置”,也就是統計學家所說的“集中趨勢”。

其實所謂的平均數、平均值在這里是有一些問題的,即它們容易受到遠離中心區域的“異常值”的干擾而出現失真。

如果一組數據分布中沒有特別離譜的異常值,那么它們的中位數和平均數將會是差不多的。

標準差這一描述性數據能夠讓我們用一個獨立的數字來表示距離平均數的離散程度。

標準差是衡量離散的指標,反應了分散在平均值周圍的數據的聚合程度。對于許多典型的數據分布來說,有很大比例的數值都位于它們的平均數的某個標準差范圍內,也就是說,這些數值有的比平均值大,有的比平均值小,但都是在一個正常范圍之內的。

第三章 統計數字會撒謊

馬克吐溫有一句名言是這樣說的,“謊言有三種:謊言、該死的謊言,以及統計學”。正如前一章所講的,我們關心的大多數現象都可以用多種方式進行描述。如果對某一事物的描述存在多種方式,那么我們所選擇使用(或回避)的描述性數據就會影響別人對此事的印象。一些別有用心的人甚至會用光鮮的事實和數據來支持真假存疑或完全不成立的結論。

一個數據的準確與否表明了其與真相是否一致,因此將“精確”和“準確”混為一談是要付出代價的。如果一個答案是準確的,那么在這個基礎上當然是越精確越好;但如果答案從一開始就是不準確的,那么再精確也毫無意義。

百分率不會撒謊,但它們會夸大其辭。讓增長出現“爆炸”的方法之一就是與一個非常低的起點進行百分率比較。

在商界流傳著一句至理名言:“你無法管理你無法衡量的事物”。這句話千真萬確,但你最好要保證你所衡量的,正是你努力想去管理的。

本章內容一直在強調,統計陷阱與數學能力的關系不大。哪怕是令人嘆為觀止的精確計算也會混淆視聽,甚至成為不良動機的掩護。有時候哪怕你準確無誤地計算出平均數,也無法改變中位數在對真相的描述中更準確這樣一個事實。判斷和正直成為關鍵所在,就好比一個人非常懂法也不能阻止其犯下罪行一樣。淵博的統計學知識無法遏制不道德的行為,無論是統計學還是法律,壞人總是清楚地知道自己在做什么!

第五章 概率與期望值

作為消費者,你應該知道,從長遠來看,保險并不能為你省錢。保險能為你做的是,當你遭遇一些難以承受的巨大損失時,如價值4萬美元的汽車被盜、35萬美元的房子被燒毀時,為你提供賠付,幫你渡過難關。從統計學的角度來看,購買保險是一項“糟糕的投資”,因為平均來看,你支付給保險公司的錢永遠要比得到的賠付多。但如果想防止一些足以毀掉你生活的結果出現,保險就是一個理性的工具。諷刺的是,一些巨富如巴菲特倒是可以不用買車險、房屋險,甚至醫療保險,從而省下不少錢,因為就算有再糟糕的事情發生在他的身上,他都能承擔得起。

一般來說,你為延長保修服務所支付的金額要高于打印機的修理費。你應該時刻謹記為那些你無法輕松承受的意外上保險,而其他情況就不要浪費錢了,這是個人理財的核心原則之一。

假如我買了一張1美元的即開型彩票,在彩票背面印著的細小文字里我可以找到不同等級獎金的中獎概率:1/10(1美元,即免費再來一張)、1/15(2美元)、1/42.86(4美元)、1/75(5美元),一直到概率為1/40000的1000美元。我將每個等級的中獎概率乘以獎金額度,最后將得到的結果相加,計算出購買此類彩票的期望值。結果是這種1美元彩票的回報期望值約為0.56美元,所以這絕對是一項糟糕的投資。但我的運氣還不錯,中了2美元。

雖然我中了2美元,依然無法改變購買彩票是一種愚蠢行為的事實,這就是概率教給我們的重要經驗之一。

第六章 蒙提霍爾悖論

(我覺得是一個很有趣的例子)

在《讓我們做個交易》節目中,主持人打開的3號門后面是一頭羊,在剩下的1號門和2號門中必定有一扇門后面是汽車,你應該如何選擇才能中大獎?

.....

簡而言之,如果你有機會參加《讓我們做個交易》節目,當蒙提霍爾問你是否要改變選擇時,你要毫不猶豫地點頭。更夸張的是,這個例子告訴我們,你對概率的本能理解有時候會將你引入歧途。

第7章 黑天鵝事件

第8章 數據與偏見

選擇性偏見/發表性偏見/記憶性偏見/幸存者偏見/健康用戶偏見

第9章 中心極限定理

1.如果我們掌握了某個群體的具體信息,就能推理出從這個群體中正確抽取的隨機樣本的情況。

2.如果我們掌握了某個正確抽取的樣本的具體信息(平均數和標準差),就能對其所代表的群體做出令人驚訝的精準推理。

3.如果我們掌握了某個樣本的數據,以及某個群體的數據,就能推理出該樣本是否就是該群體的樣本之一。

4.最后,如果我們已知兩個樣本的基本特性,就能推理出這兩個樣本是否取自同一群體。

1.如果你從某個研究群體中多次隨機抽取數量足夠多的樣本,那么這些樣本的平均值會以整體平均值為中心呈現正態分布(不論該群體自身的分布情況是怎么樣的)。

2.絕大多數的樣本平均值都會緊緊圍繞在整體平均值的周圍,通過計算標準誤差就可以知道這些樣本平均值到底是離得“近”還是“遠”。

3.通過中心極限定理,我們便可知道樣本平均值與整體平均值之間的距離及其概率。樣本平均值離整體平均值兩個標準誤差的概率相對較低,3個或以上標準誤差的概率基本上為零。

4.如果出現了某個概率較低的結果,我們便可用推測是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。

第10章 統計推斷與假設檢驗

統計推斷中最常使用的工具之一就是“假設檢驗”。

就憑數據本身并不能證明任何結論,我們只有通過推理和概率來對可能的解釋給予支持或否定。更為精準來說,任何統計推斷都是由或含蓄或直接的零假設開始的。先假設一個結論,然后通過統計分析對其進行支持或反駁。如果我們證明零假設并不成立,那么相當于承認了其反面結論與真實情況更為接近。舉個例子,法庭在審理案件的過程中,首先會假設被告方無罪,而指控方的工作就是說服法官或陪審團來推翻一開始的無罪假設,并接受其反面事實,即被告有罪。從邏輯學來看,如果我們能證明某個零假設不成立,那么其對立假設(又稱備擇假設)肯定為真。

在任何情況下,對推翻零假設的舉證責任的要求越寬松,推翻零假設的可能性就越大。但我們顯然不愿意看到無效的癌癥藥物進入市場,也不希望將無辜的人送進監獄。

但這又出現了一個矛盾。推翻零假設的門檻越高,我們推翻零假設的可能性就越小以至于很多應該被推翻的零假設“逃過一劫”。如果我們要求湊齊5位目擊證人才能將被告定罪,那么將會有很多罪大惡極的罪犯逍遙法外(當然,蒙冤入獄的人也會相應減少)。如果我們對所有新藥的臨床試驗都要求0.001的顯著性水平,那么將會極大地減少無效藥物進入市場的可能性(因為錯誤推翻“藥物沒有比安慰劑更有療效”的零假設的概率只有千分之一),但我們同時也面臨著將有效藥物拒之門外的風險,因為我們的準入門檻太高了,這就是統計學上的 II型錯誤,又稱“假陰性”。

哪種錯誤更嚴重?這要依情況而定。最重要的是,你能夠意識到寬松和嚴格之間的權衡與妥協,因為統計學里沒有“免費的午餐”。

第11章 民意測驗與誤差幅度

第12章 回歸分析與線性關系

第13章 致命的回歸錯誤

世界上3本最有聲望的醫學期刊上刊登的49篇學術研究論文中1/3后來都被推翻了,使用,“盡量不要用你的回歸分析研究殺人”。

讓回歸分析這一非凡的工具淪為“邪惡”工具的7個最常見的錯誤。

1.用回歸分析來分析非線性關系。

2.相關關系并不等同于因果關系。

3.因果倒置。

4.變量遺漏偏差

5.高度相關的解釋變量(多元共線性)

6.脫離數據進行推斷。

7.數據礦(變量過多)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容