《統計數字會撒謊》讀書札記

偶然從圖書館搜得一本書,作者[美]達萊爾`哈夫。

作為一本經典的統計故事書,易讀性比較強,各章都簡單明了的用例子給讀者說明一個統計相關的道理。零零散散讀完,確實也在平時工作做數據分析時有感同身受,不過串起來,感受整體的思想感情,應該更有裨益吧。

1 內在有偏的樣本

為確保結論有價值,根據抽樣得出的結論一定要采用有代表性的。否則,由于采樣而產生的不起眼的誤差,正將你引導向與真實相反的結論。

2 精心挑選的平均數

均值、中位數、眾數等(在文中均稱為平均數的一類)的意義大不相同。

當你看到平均收入時,問問是什么的平均?包括了哪些人?如,包不包含part-time職工收入,因為這將給平均收入帶來很大差異。

3 沒有披露的數據

(1)采用嚴重有偏的樣本基本能夠產生任何人需要的任何結果,這其中的把戲是不充分的樣本。

“用戶反映使用多克斯Doakes牌牙膏將使蛀牙減少23%”。——多克斯牙膏公司,記錄6個月的蛀牙數,記錄三種結果:蛀牙增多;蛀牙減少;蛀牙無顯著變化。第一種或第三種結果編檔保存,藏起來,然后重新實驗。由于機遇的作用,遲早有一組試驗者將證明出牙膏有很好的效果。

拋10次硬幣,8次菊花朝上,不能就這樣證明菊花朝上的概率為80%。只有越多次實驗,才會更接近50%。

所以要多少才可以呢?書中說,這取決與其他的因素,即你采用抽樣方式所研究的總體容量有多大、變動程度有多大。嗯,還是很抽象。

從另一個角度引入一個概念,顯著性檢驗。反映檢驗數據以多大的可能性代表實際結論,而不是代表由于機遇產生的其它結論??梢杂酶怕蕘肀硎?,如普查局以19/20的概率保證他們的是對的,大多數情況下,5%的顯著性水平已經足夠,意味著95%的概率保證結果真實,“在實踐上幾乎是確定的”。

(2)另一類沒有透露的數據,即事物的變動范圍以及與給定平均數的偏離水平。

通常單憑一個平均數來描述事物過于簡單,起不到作用。

舉個例子,建房子時,統計了個數:一個家庭,平均有3.6人的家庭。3或4個人,意味著需要建造兩個臥室的房子。但是事實是,這種規模的家庭只是少數,僅占全部家庭的45%,而35%是1人或2人,20%的多于4人。過分依賴平均數的結果就是,建了過多的兩臥室的房子。

“正常的”與“期望的”混為一談時,導致事情變得更糟。如,有些書給焦慮的父母提供了錯誤的結論,晚一天或晚一個月學會走路的孩子是低能兒。典型地,缺少了對事物的變動范圍和平均數的偏離水平的理解。

是啊,世界上有的山高,有的山低,還有盆地,不都亙古了。

4 毫無意義的工作

可能誤差和標準誤差,定量地衡量你的樣本以多大的精度代表總體。

智力測試中,二狗 98分,翠西 101分,好像二狗子輸了。如果說智力測試的可能誤差(可能誤差指的是準確度或可信度?)為3%,二狗智商的全面表達是98±3,翠西101±3,二狗的智商以相等的機會落在95-101中任何一點,有1/4的可能性二狗智商超過101(1/4哪里來的?),同于翠西低于98的可能性,所以也有可能二狗的智商高于翠西3分。

5 令人驚奇的圖形

講了一個陰謀,改變坐標軸的比例關系,而將一條平緩上升的直線,變成了一條y=tan(x)曲線。

6 一維圖形的濫用

講了另一個陰謀,把代表奶牛數量的柱狀圖中1:2大小比例的兩條柱子,換成奶牛圖形,結果第二張圖的奶牛身高是第一張圖的奶牛身高的2倍。看似合理,其實用視覺效果夸大了比例,畢竟奶牛在圖片中是二維的,隨著身高變成2倍,面積變成了4倍。如果畫3D效果的金字塔,體積就變成了8倍。

7 不完全匹配的資料

把看上去極像、而完全不同的兩件事混淆在一起。

去年因飛機失事造成的死亡人數比1910年多,是否意味著乘坐現代化的飛機反而更危險?而要知道現在選擇飛機作為交通工具的人比以往增加幾百倍了。

所以需要統一比較的口徑,如比較每100萬乘客里程的遇難人數,才更有意義。

8 相關關系的誤解

兩個事物之間的關聯關系并不能用于說明其中一個將引起另一個的變化。即使樣本容量足夠大,經認真挑選,且相關關系十分顯著等。

更大的可能性是,兩個因素并不互為因果,而同為第三個因素的產物。

相關系數所證明的事物之間的關聯關系,有幾種類型:

(1)由于機緣巧合而產生的。

所以任意兩個事物或兩組特性之間,在利用小樣本后,都能建立顯著的相關關系。

(2)存在真實的關系,但無法確定何為因、何為果。有時因果可互換位置,或互為因果。

如收入和股票。

(3)最富戲劇性的是,雖然所有變量相互間沒有任何影響,但的確存在顯著的相關。

如抽煙者與成績的不好。

(4)超過了推斷關系的數據范圍,而得出的結論。

正相關到了一定程度后可能急劇轉化為負相關,如雨越多,谷物越高,收成越多;但如果是一季的暴雨,就可能毀滅莊稼。

相關顯示了一種趨勢,而這種趨勢通常不是那種一對一的理想關系。

數據是真實的,然而不妥的是一句數據和事實推斷了一個未經證實的結論。

——我想知道,如何證明一個因素是另一個的起因?

10 如何反駁統計資料

(1)誰說的?

有意識的偏差:錯誤的陳數,不易被揭穿的含糊之詞,可以挑選適合的數據。測量標準的該懂,不正確的測量方法。

無意識的偏差:警惕權威。

(2)他是如何知道的?

樣本是否有偏:數值是否足夠大從而能解釋問題,觀察值是否足夠多從而保證結論的可靠性?

(3)遺漏了什么?

可信度(可能誤差、標準誤差)的缺乏

均值與中位數相差甚遠時,要注意那些沒有標明類型的平均數。

很多數據因為沒有比較而變得缺乏意義。

有時僅給出百分數卻缺少原始數據也能造成欺騙。

為指數精心挑選一個基期,可以扭曲事實。

遺漏了引起變化的原因,容易讓人認為其它因素才是引發變化的原因。

(4)是否與人偷換了概念?

如,會計人員往往認為“盈余”是個會引起諸多爭議的次,美國會計師協會跨級程序委員會建議,可以使用“留存利潤”或者“固定資產增值”這種描述性的術語。

(5)這個資料有意義嗎?

外推法在預測趨勢是十分有用,但不加控制的外推法具有不完善性。因為該方法暗含“其它所有條件都相同”以及”現有趨勢將繼續下去“的前提。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,115評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 177,577評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,514評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,234評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,621評論 1 326
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,822評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,380評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,128評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,319評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,548評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,970評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,229評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,048評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,285評論 2 376

推薦閱讀更多精彩內容

  • 一、內在有偏的樣本 1、抽樣:只要樣本足夠大,并且具有代表性,多數情況下,樣本的信息可以很好地代表總體。但如果條件...
    IvanHung閱讀 1,568評論 0 1
  • 《數據分析的統計基礎》的讀書筆記 作 者:經管之家、曹正鳳 出版社:電子工業出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,812評論 1 58
  • 1. 簡述相關分析和回歸分析的區別和聯系。 回歸分析和相關分析都是研究兩個或兩個以上變量之間關系的方法。 廣義上說...
    安也也閱讀 8,746評論 0 3
  • 5月10日,讀完了達萊爾·哈夫的《統計數據會撒謊》。 之前就知道這是本已出版幾十年的統計數據科普經典,卻沒想到...
    River小姐姐閱讀 1,464評論 0 3
  • 看見,就是愛。小孩子原本就是天真可愛的,只要媽媽不經意的一逗就會:“哈哈大笑”,所以說呀,媽媽是孩子的一面鏡子...
    合肥李風麗閱讀 94評論 0 0