統(tǒng)計(jì)數(shù)字會(huì)撒謊

一、內(nèi)在有偏的樣本

1、抽樣:只要樣本足夠大,并且具有代表性,多數(shù)情況下,樣本的信息可以很好地代表總體。但如果條件不滿足,抽樣的結(jié)果比一個(gè)臆想的結(jié)果好不到哪兒去——除了會(huì)形成一種十分科學(xué)精確的虛假印象以外。

2、一個(gè)以抽樣為基礎(chǔ)的報(bào)告如果要有價(jià)值,就必須使用具有代表性的樣本,這種樣本排除了各種誤差。只要有產(chǎn)生誤差的可能性,你就有必要對(duì)結(jié)果保留一定的懷疑。

3、造成偏差的一些原因:人們不可能完全說真話;選取的樣本有偏;調(diào)查人員的組成(人們?cè)诮邮苷{(diào)查時(shí)有迎合對(duì)方說好話的明顯傾向)。

二、精心挑選的平均數(shù)

1、平均數(shù)包括:均值、中位數(shù)、眾數(shù)。

2、標(biāo)準(zhǔn)正態(tài)分布的情況下,三者是相等的;若分布傾斜,則三者會(huì)有差距。

3、有目的地挑選平均數(shù),可以造成結(jié)果的不同。

三、沒有披露的數(shù)據(jù)

1、在大樣本的使用中,任何由于機(jī)遇產(chǎn)生的差異都是微不足道的。而小樣本的結(jié)果則會(huì)不準(zhǔn)確(如拋硬幣)。

2、多大的樣本容量才是足夠的,取決于抽樣時(shí)你所研究的總體,其容量有多大,以及變動(dòng)范圍有多大。有時(shí)樣本中單位的數(shù)量看上去已經(jīng)足夠多,但實(shí)際并非如此(如醫(yī)學(xué)試驗(yàn),因發(fā)病率很低,需要樣本容量足夠大)。

3、顯著性檢驗(yàn)方法:顯著性是一種反應(yīng)測驗(yàn)數(shù)據(jù)以多大可能性代表實(shí)際結(jié)論,而不代表那些由于機(jī)遇產(chǎn)生的其他結(jié)論。如果某條信息提供了顯著性程度,你將對(duì)它有更深的了解(這就是那些沒有披露的數(shù)據(jù))。通常情況下,5%的顯著水平是最低要求。1%的顯著水平說明以99%的概率保證該結(jié)果是真實(shí)的。

4、另一類需要關(guān)注的“沒有披露的數(shù)據(jù)”:事物整體范圍的全距(也稱極差)和與平均數(shù)偏離水平(如不能只根據(jù)年平均氣溫選擇野營地點(diǎn),應(yīng)當(dāng)注意波動(dòng)范圍)。

四、毫無意義的工作

1、樣本以多大的精度代表總體是可以用數(shù)據(jù)衡量的:可能誤差和標(biāo)準(zhǔn)誤差。用腳丈量100碼的距離,平均而言有3碼的誤差,則可能誤差是100±3,亦即3%;標(biāo)準(zhǔn)誤差中,2/3的單位將落在加、減一個(gè)標(biāo)準(zhǔn)誤差的范圍內(nèi),而不是1/2的單位。

2、只有當(dāng)差別有意義時(shí)才能稱之為差別。忽略可能/標(biāo)準(zhǔn)誤差的比較并沒有意義。

五、驚人的統(tǒng)計(jì)圖形

1、人們常用直線圖來表示趨勢。

2、縱軸的刻度會(huì)影響直線的斜率。在畫圖時(shí),若縱軸刻度截取在某一段(如18-24),其圖形增長情況可能會(huì)遠(yuǎn)遠(yuǎn)超過刻度在0-24的情況,造成增長很快的假象。

六、平面圖形

1、在比較兩種或以上的事物時(shí),柱狀圖是一種描繪數(shù)量的常用的方法。

2、形象化的圖形的前身是普通的柱狀圖,如用錢袋來代表收入。當(dāng)要表達(dá)A的收入是B的兩倍時(shí),可以畫兩個(gè)錢袋分別代表兩者的收入,前者高是后者的兩倍。但其視覺效果是具有欺騙性的,因?yàn)榍罢叩膶捦瑯邮呛笳叩膬杀叮瑢?shí)際給人的印象會(huì)是四倍的差距,若考慮到三維,則是八倍。

七、相匹配的資料

1、如果你想證明某事,卻發(fā)現(xiàn)沒有能力辦到,那么試著解釋其他事情并假裝它們是一回事。

2、不相匹配包括:兩組對(duì)象的條件不同(如用實(shí)驗(yàn)的情況宣傳實(shí)際效果);兩組對(duì)象不可比(如海軍與城市居民死亡率對(duì)比,一組是青年,一組包含老幼);相比較的對(duì)象不合適(去年飛機(jī)失事比1910年多)等。

3、在描述同一個(gè)數(shù)據(jù)時(shí),可以有不同的方法。例如,你可以把相同的事情表述為:1%的銷售利潤了;15%的投資回報(bào)率;1000萬美元的利潤;利潤上升40%(相比1935-1939年的平均水平);利潤相比去年下降60%。選擇一個(gè)目前最有利于你的說法。

八、相關(guān)關(guān)系與因果關(guān)系

1、謬誤:“如果B緊跟著A出現(xiàn),那么A一定導(dǎo)致B”,更大的可能性是兩個(gè)因素并不互為因果,而同為第三個(gè)因素的產(chǎn)物。例如,學(xué)生中抽煙與低分經(jīng)常同時(shí)出現(xiàn),但不一定是抽煙導(dǎo)致的低分。

2、相關(guān)是通過相關(guān)系數(shù)這個(gè)精確的數(shù)據(jù)來證明兩件事物具有關(guān)聯(lián)關(guān)系,它可以有多種不同的類型。一種相關(guān)是由于機(jī)緣巧合產(chǎn)生的,由于機(jī)會(huì)的存在,你或許可以通過一組數(shù)據(jù)來證明一些根本不存在的結(jié)論,如硬幣百分百是正面朝上的;聯(lián)合變動(dòng)是兩者存在真實(shí)的關(guān)系,但卻無法確定何為因、何為果,如收入與股票;還有一種相關(guān)是所有變量相互間沒有任何影響,但卻存在顯著的相關(guān),如抽煙與低分。

3、需要留意超過了推斷相關(guān)關(guān)系的數(shù)據(jù)范圍而得出的結(jié)論。例如,一般雨下的越多,谷物長得越好。但超過了一定的降雨量,則會(huì)轉(zhuǎn)化為負(fù)相關(guān)。

4、相關(guān)顯示了一種趨勢(正相關(guān)或負(fù)相關(guān)),但這種趨勢通常不是理想的一對(duì)一關(guān)系。例如,高個(gè)子男孩一般比矮個(gè)子男孩更重,但也有例外。

5、兩個(gè)錯(cuò)誤觀點(diǎn):用真實(shí)的相關(guān)關(guān)系來支持一個(gè)未經(jīng)證實(shí)的因果關(guān)系;一旦兩個(gè)事物共同變動(dòng),他們便存在因果關(guān)系。

九、如何進(jìn)行統(tǒng)計(jì)操縱

1、統(tǒng)計(jì)操縱:利用統(tǒng)計(jì)資料傳遞錯(cuò)誤的信息而誤導(dǎo)他人。

2、常見的方法:利用地圖傳達(dá)與事實(shí)不符的印象(利用廣袤的偏遠(yuǎn)地區(qū)的收入與政府支出相等來證明政府支出過多);利用小數(shù)點(diǎn)和百分?jǐn)?shù)為不確切的事物蒙上精確的面紗(平均7.81比平均7.8顯得更有說服力);偷換基數(shù)(將打五折表述為節(jié)省100%);將百分?jǐn)?shù)直接相加(四項(xiàng)成本開支都上升5%,則總成本也是上升5%,并非20%);百分比之間的比較(第一年ROI為3%,第二年為6%,既可以表述為增長了3個(gè)百分點(diǎn),也可以說增長高達(dá)100%)等。

3、在報(bào)紙、雜志或書籍中看到統(tǒng)計(jì)材料、結(jié)論以及數(shù)據(jù)時(shí),應(yīng)該經(jīng)過認(rèn)真的思考后再接受它們。

十、對(duì)統(tǒng)計(jì)資料提出的五個(gè)問題

1、誰說的?首先要尋找的是偏差。出于利己的考慮,發(fā)布消息的一方可能制造偏差。包括有意識(shí)的偏差和無意識(shí)的偏差。

a)有意識(shí)的偏差:錯(cuò)誤的陳述或含糊不清之詞;刻意挑選適合的數(shù)據(jù)而丟棄不合適的數(shù)據(jù);改動(dòng)測量標(biāo)準(zhǔn)(在進(jìn)行一種比較時(shí)確定了某年為基期,而另一種比較時(shí)卻使用了更有利的年份);使用不正確的測量方法(簡單地使用“平均數(shù)”一詞)等。

b)無意識(shí)的偏差:權(quán)威人士是否是真的權(quán)威人士;當(dāng)某個(gè)權(quán)威人士被引用時(shí),請(qǐng)弄清楚到底資料的內(nèi)容是權(quán)威的,還是僅僅與權(quán)威人士沾邊(結(jié)論卻不是來自權(quán)威人士)。

2、他是如何知道的?樣本是否有偏,是否足夠大能保證結(jié)論值得信賴?是否具有一定的顯著性?等等。

3、遺漏了什么?樣本包含多少案例缺失時(shí)值得質(zhì)疑;對(duì)一個(gè)沒有經(jīng)過可信度(可能誤差、標(biāo)準(zhǔn)誤差)檢驗(yàn)的相關(guān)不用太當(dāng)真;均值與中位數(shù)相差甚遠(yuǎn)時(shí),注意那些沒有表明類型的平均數(shù);很多數(shù)據(jù)因?yàn)槿狈Ρ容^而變得沒有意義(在大霧的一周里有2800人死亡);僅給出百分?jǐn)?shù)而缺少原始數(shù)據(jù)也能造成欺騙(1/3的女學(xué)生嫁給了大學(xué)老師,實(shí)際上只有3位女學(xué)生被錄取);有些文章遺漏了引起變化的原因(用今年4月銷售額高于去年來證明經(jīng)濟(jì)在復(fù)蘇,然而去年復(fù)活節(jié)在3月今年則在4月)。

4、是否有人偷換了概念?留心從搜集原始資料到形成結(jié)論的整個(gè)過程中,是否有人偷換了概念。用發(fā)病數(shù)替代更有意義的發(fā)病率;被調(diào)查者不一定說了真話;將相關(guān)關(guān)系偷換成因果關(guān)系;標(biāo)榜自己是某個(gè)特定領(lǐng)域的“第一”;等等。

5、這個(gè)資料有意義嗎?當(dāng)所接觸的資料是建立在未經(jīng)證實(shí)的假設(shè)基礎(chǔ)上時(shí),你可以發(fā)問,這個(gè)資料有意義嗎?例如用1947-1952的家庭電視機(jī)擁有數(shù)量增長速率來預(yù)測未來的擁有數(shù),是毫無意義的。因?yàn)閾碛袛?shù)越接近飽和增長會(huì)放緩。


——著作權(quán)歸原作者所有——

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容