偶然從圖書館搜得一本書,作者[美]達萊爾`哈夫。
作為一本經典的統計故事書,易讀性比較強,各章都簡單明了的用例子給讀者說明一個統計相關的道理。零零散散讀完,確實也在平時工作做數據分析時有感同身受,不過串起來,感受整體的思想感情,應該更有裨益吧。
1 內在有偏的樣本
為確保結論有價值,根據抽樣得出的結論一定要采用有代表性的。否則,由于采樣而產生的不起眼的誤差,正將你引導向與真實相反的結論。
2 精心挑選的平均數
均值、中位數、眾數等(在文中均稱為平均數的一類)的意義大不相同。
當你看到平均收入時,問問是什么的平均?包括了哪些人?如,包不包含part-time職工收入,因為這將給平均收入帶來很大差異。
3 沒有披露的數據
(1)采用嚴重有偏的樣本基本能夠產生任何人需要的任何結果,這其中的把戲是不充分的樣本。
“用戶反映使用多克斯Doakes牌牙膏將使蛀牙減少23%”。——多克斯牙膏公司,記錄6個月的蛀牙數,記錄三種結果:蛀牙增多;蛀牙減少;蛀牙無顯著變化。第一種或第三種結果編檔保存,藏起來,然后重新實驗。由于機遇的作用,遲早有一組試驗者將證明出牙膏有很好的效果。
拋10次硬幣,8次菊花朝上,不能就這樣證明菊花朝上的概率為80%。只有越多次實驗,才會更接近50%。
所以要多少才可以呢?書中說,這取決與其他的因素,即你采用抽樣方式所研究的總體容量有多大、變動程度有多大。嗯,還是很抽象。
從另一個角度引入一個概念,顯著性檢驗。反映檢驗數據以多大的可能性代表實際結論,而不是代表由于機遇產生的其它結論??梢杂酶怕蕘肀硎?,如普查局以19/20的概率保證他們的是對的,大多數情況下,5%的顯著性水平已經足夠,意味著95%的概率保證結果真實,“在實踐上幾乎是確定的”。
(2)另一類沒有透露的數據,即事物的變動范圍以及與給定平均數的偏離水平。
通常單憑一個平均數來描述事物過于簡單,起不到作用。
舉個例子,建房子時,統計了個數:一個家庭,平均有3.6人的家庭。3或4個人,意味著需要建造兩個臥室的房子。但是事實是,這種規模的家庭只是少數,僅占全部家庭的45%,而35%是1人或2人,20%的多于4人。過分依賴平均數的結果就是,建了過多的兩臥室的房子。
“正常的”與“期望的”混為一談時,導致事情變得更糟。如,有些書給焦慮的父母提供了錯誤的結論,晚一天或晚一個月學會走路的孩子是低能兒。典型地,缺少了對事物的變動范圍和平均數的偏離水平的理解。
是啊,世界上有的山高,有的山低,還有盆地,不都亙古了。
4 毫無意義的工作
可能誤差和標準誤差,定量地衡量你的樣本以多大的精度代表總體。
智力測試中,二狗 98分,翠西 101分,好像二狗子輸了。如果說智力測試的可能誤差(可能誤差指的是準確度或可信度?)為3%,二狗智商的全面表達是98±3,翠西101±3,二狗的智商以相等的機會落在95-101中任何一點,有1/4的可能性二狗智商超過101(1/4哪里來的?),同于翠西低于98的可能性,所以也有可能二狗的智商高于翠西3分。
5 令人驚奇的圖形
講了一個陰謀,改變坐標軸的比例關系,而將一條平緩上升的直線,變成了一條y=tan(x)曲線。
6 一維圖形的濫用
講了另一個陰謀,把代表奶牛數量的柱狀圖中1:2大小比例的兩條柱子,換成奶牛圖形,結果第二張圖的奶牛身高是第一張圖的奶牛身高的2倍。看似合理,其實用視覺效果夸大了比例,畢竟奶牛在圖片中是二維的,隨著身高變成2倍,面積變成了4倍。如果畫3D效果的金字塔,體積就變成了8倍。
7 不完全匹配的資料
把看上去極像、而完全不同的兩件事混淆在一起。
去年因飛機失事造成的死亡人數比1910年多,是否意味著乘坐現代化的飛機反而更危險?而要知道現在選擇飛機作為交通工具的人比以往增加幾百倍了。
所以需要統一比較的口徑,如比較每100萬乘客里程的遇難人數,才更有意義。
8 相關關系的誤解
兩個事物之間的關聯關系并不能用于說明其中一個將引起另一個的變化。即使樣本容量足夠大,經認真挑選,且相關關系十分顯著等。
更大的可能性是,兩個因素并不互為因果,而同為第三個因素的產物。
相關系數所證明的事物之間的關聯關系,有幾種類型:
(1)由于機緣巧合而產生的。
所以任意兩個事物或兩組特性之間,在利用小樣本后,都能建立顯著的相關關系。
(2)存在真實的關系,但無法確定何為因、何為果。有時因果可互換位置,或互為因果。
如收入和股票。
(3)最富戲劇性的是,雖然所有變量相互間沒有任何影響,但的確存在顯著的相關。
如抽煙者與成績的不好。
(4)超過了推斷關系的數據范圍,而得出的結論。
正相關到了一定程度后可能急劇轉化為負相關,如雨越多,谷物越高,收成越多;但如果是一季的暴雨,就可能毀滅莊稼。
相關顯示了一種趨勢,而這種趨勢通常不是那種一對一的理想關系。
數據是真實的,然而不妥的是一句數據和事實推斷了一個未經證實的結論。
——我想知道,如何證明一個因素是另一個的起因?
10 如何反駁統計資料
(1)誰說的?
有意識的偏差:錯誤的陳數,不易被揭穿的含糊之詞,可以挑選適合的數據。測量標準的該懂,不正確的測量方法。
無意識的偏差:警惕權威。
(2)他是如何知道的?
樣本是否有偏:數值是否足夠大從而能解釋問題,觀察值是否足夠多從而保證結論的可靠性?
(3)遺漏了什么?
可信度(可能誤差、標準誤差)的缺乏
均值與中位數相差甚遠時,要注意那些沒有標明類型的平均數。
很多數據因為沒有比較而變得缺乏意義。
有時僅給出百分數卻缺少原始數據也能造成欺騙。
為指數精心挑選一個基期,可以扭曲事實。
遺漏了引起變化的原因,容易讓人認為其它因素才是引發變化的原因。
(4)是否與人偷換了概念?
如,會計人員往往認為“盈余”是個會引起諸多爭議的次,美國會計師協會跨級程序委員會建議,可以使用“留存利潤”或者“固定資產增值”這種描述性的術語。
(5)這個資料有意義嗎?
外推法在預測趨勢是十分有用,但不加控制的外推法具有不完善性。因為該方法暗含“其它所有條件都相同”以及”現有趨勢將繼續下去“的前提。