統(tǒng)計學(xué)防騙手冊——《統(tǒng)計數(shù)據(jù)會說謊》
一本簡單易上手的統(tǒng)計學(xué)防上當(dāng)受騙手冊。作者的本意并不是指責(zé)負(fù)責(zé)數(shù)據(jù)的統(tǒng)計學(xué)家,而是出于對人性的了解,知道原本中立的數(shù)據(jù)在推銷員、公共關(guān)系專家、記者和廣告文案撰寫者的手里,難免會被歪曲夸大或過分簡化,最終的分析結(jié)果與數(shù)據(jù)反映的實際情況相差萬里。這本書會指導(dǎo)你成為生活里的偵探,一招搓破那些虛張聲勢的謊言。
一、樣本偏差
例子:
1936年《文學(xué)摘要》(Literary Digest)對當(dāng)年總統(tǒng)大選預(yù)測失敗的事例。曾經(jīng)精確預(yù)測出1932年大選結(jié)果的一千萬電話用戶和《文學(xué)摘要》的訂閱者們令編輯相信蘭登(Landon)將獲得370票,羅斯福(Roosevelt)只有161票。如此龐大的調(diào)查群體怎么會有偏差呢?然而偏差確實存在。一些大學(xué)論文和其他事后調(diào)查發(fā)現(xiàn):在1936年有錢用電話和訂雜志的人并不具有代表性。從經(jīng)濟(jì)角度來看,他們是一類特殊人群。該樣本之所以帶有偏差是因為事實最后證明,該樣本對象都是共和黨選民。
應(yīng)用:
調(diào)查的樣本是否足夠大,是否隨機(jī)分布,是否存在各種潛在的偏差,調(diào)查對象是否如實回答了調(diào)查問題。如此嚴(yán)格要求的抽樣調(diào)查是很難做到的。
二、精挑細(xì)選的平均數(shù)
例子:
某房產(chǎn)銷售在賣房時對你說,該小區(qū)住戶的平均年收入是500萬;當(dāng)你買房入住后,又看到他在游說街道辦給該小區(qū)低收入補(bǔ)貼,宣稱小區(qū)戶主的平均年收入只有5萬。
這兩個數(shù)據(jù)可能都是有真實數(shù)據(jù)支撐的。平均年收入500萬可能只是因為有一個富豪在該小區(qū)投資了一套房,而其他都是窮人也說不定。
應(yīng)用:
關(guān)鍵問題是區(qū)分人們說到“平均”的時候到底指什么。一般說來有三種:加和平均(或算術(shù)平均)、中位數(shù)、最多數(shù)。這三者經(jīng)常代表樣本的不同維度,在標(biāo)準(zhǔn)正態(tài)分布的時候,三者趨同,但是小樣本、非正態(tài)分布時,是不能互相替代的。
當(dāng)別人說到“平均”時,最好問清楚是哪種平均,并且,樣本多大,里面都包含什么。
三、關(guān)鍵數(shù)據(jù)不全
例子:
某廣告聲稱:使用某牙膏后用戶的蛀牙減少了23%!
真的有那么明顯的差別嗎?再看該廣告的小字部分,調(diào)查組只有12個人。并且,你不知道廠家做了多少組實驗,才獲得了“蛀牙減少23%”這個顯著的成果。
應(yīng)用:
這種詭計常見的手段是,給出平均值但不給方差;畫出趨勢線但沒有標(biāo)明數(shù)據(jù)值(scale);給出百分比卻沒說樣本大小。都是通過隱瞞部分?jǐn)?shù)據(jù)以操作數(shù)據(jù)達(dá)到操縱結(jié)論的目的。
四、誤差——無事瞎忙
例子:
你家兩個小孩同去參加智力測試,結(jié)果兒子智商98,女兒101。你被告知智力測驗的正常水平為100。這時你是否該擔(dān)心,兒子是弱智?
應(yīng)用:
凡是這類測驗,因人而異,不應(yīng)該只有一條區(qū)分正常與不正常的線,而是應(yīng)該設(shè)“正常范圍”與“異常范圍”。比如體檢抽血時,都是給出正常區(qū)間,只有在正常區(qū)間以外才需要關(guān)注。
五、圖表截取
這部分不上圖很難說明了。基本的原理就是根據(jù)數(shù)據(jù)畫出折線圖后,截取掉一部分y軸,這樣可以增加折線的斜率,放大曲線的變化趨勢,小幅攀升可以變成陡然增長,造成驚人的效果。
這個對于科研人員算是一項必修課,本著嚴(yán)謹(jǐn)?shù)膽B(tài)度,盡量不要截坐標(biāo)軸,如果是兩幅圖進(jìn)行前后效果比較,要采用相同的坐標(biāo)軸比例。
六、一維圖形表示數(shù)量
數(shù)據(jù)是一維的,但是紙上的圖形是二維甚至三維的。當(dāng)你用圖形來表示數(shù)據(jù)的比例時,很可能會放大數(shù)據(jù)差異。比如數(shù)據(jù)增長了一倍,你用三角形表示數(shù)據(jù)大小,把三角形的邊長增長了一倍來代表數(shù)據(jù)增長,這樣三角形的面積就增長了四倍,若是有空間感,則體積增長了八倍,造成的視覺沖擊與實際情況不符,會過分夸大事實。
七、看似相關(guān)
例子:
1898年“美西戰(zhàn)爭”期間,美國海軍的死亡率是9‰,而同期紐約市市民的死亡率為16‰。后來,海軍征兵部門的人就拿這個數(shù)據(jù)來說明待在部隊更安全。假設(shè)這些數(shù)據(jù)都是精確的,因為它們可能很準(zhǔn)確。但稍等一下,看看你能否發(fā)現(xiàn)其中的伎倆,或者說征兵人員根據(jù)它們得出的結(jié)論是否毫無意義。
例子:
我們經(jīng)常可以在雜志和廣告上見到陳述中濫用的前后對照圖表的統(tǒng)計形式。有兩張照片照的是同一間客廳,這是為了證明刷上一層油漆后的顯著不同。但是在兩次照相期間,廣告商會加入新的家具,更何況“之前”的照片只是一張光線很差的黑白小照,而“之后”的照片則是一張色澤鮮明的彩色大照。還有個例子:有兩張照片能向你展示一個姑娘使用護(hù)發(fā)素前后的明顯不同。天啊!她使用了護(hù)發(fā)素后,看起來是多么漂亮啊!但你若仔細(xì)檢驗,會發(fā)現(xiàn)她之所以變美多半是由于她的嫣然一笑以及打在她頭發(fā)上的背光。因此,這應(yīng)歸功于攝影師而非護(hù)發(fā)素。
應(yīng)用:
這一部分需要較為嚴(yán)謹(jǐn)?shù)倪壿嫳鎰e:結(jié)論到底是由對方給出的數(shù)據(jù)推理得到,還是對方把一堆相關(guān)事物堆砌而成。
八、因果顛倒/歸因謬誤
歸因謬誤在人的邏輯系統(tǒng)里很常見。比較極端的一個例子是,因為每天雞叫之后才天亮,因此相信“雞叫”是導(dǎo)致“天亮”的原因。
這種歸因謬誤很常見:人類天性就是喜歡歸因,守因果律的制約,若遇到因果律難以解釋的事情就會難受。但是人類社會是復(fù)雜系統(tǒng),很多事情是相互影響的(如蝴蝶效應(yīng)),因果律難以給出確定的解釋。在還為充分研究、實驗就憑感覺得出的歸因,一般都是片面乃至錯誤的。
本書里用的一個例子是,在一個原始人部族,普遍相信“虱子使人健康”。原來是因為一般健康的人身上都有虱子,生病的人身上卻沒有虱子。其實是因為這個原始部族的人身上都有虱子,但人生病的時候體溫升高,不適合虱子生存,虱子暫時離開了。當(dāng)人快要恢復(fù)健康的時候,體溫下降,虱子又重新寄生在這個人身上,并不是“虱子帶來了健康”。
書中建議,“為了避免陷入這種因果謬誤,從而相信許多似是而非的東西,你需要嚴(yán)格檢驗各種與相關(guān)性有關(guān)的說明。”
相關(guān)性往往是通過一些令人信服的精確數(shù)據(jù)來證明兩件事情之間的因果關(guān)系。但事實上,這種相關(guān)性卻有多種類型。相關(guān)并非因果。你可以說兩者相關(guān),但是在作出因果推定時,一定要慎重。
如何識別統(tǒng)計騙局
作者在文末建議讀者,在遇到統(tǒng)計結(jié)論時問以下幾個問題:
- 他怎么知道?
- 漏掉了什么?
- 有人偷換概念嗎?
- 這是否合乎情理?
不要輕易被數(shù)據(jù)嚇倒,而是要慎重的接受別人拿數(shù)據(jù)堆砌出來的結(jié)論。