本文是《赤裸裸的統(tǒng)計(jì)學(xué)》一書的筆記、總結(jié)和思考。主要是個(gè)人梳理和沉淀知識(shí)之用,有興趣的話可以看看原書。
統(tǒng)計(jì)學(xué)有什么用
獲得描述性數(shù)據(jù)
我們經(jīng)常要從大量數(shù)據(jù)中提煉出一個(gè)描述性數(shù)據(jù)來簡化問題。比如:我們想知道一個(gè)球員的好壞,可以用場均得分?jǐn)?shù)來衡量。相對(duì)簡單的場景,我們可以使用單一的指標(biāo)來評(píng)估。
對(duì)于復(fù)雜的場景,我們可能就要將各種數(shù)據(jù)綜合起來,比如:學(xué)校要通過衡量學(xué)生的成績,獎(jiǎng)學(xué)金發(fā)給最優(yōu)秀的學(xué)生。每個(gè)學(xué)生在大學(xué)中選修的課程都不同,憑什么來決定把獎(jiǎng)學(xué)金給誰呢?我們需要一個(gè)相對(duì)客觀和公平的機(jī)制來評(píng)價(jià)每一個(gè)學(xué)生的成績。我們把每一科的百分成績折算后乘以對(duì)應(yīng)科目的學(xué)分,累加起來再除以總的學(xué)分,計(jì)算出來的就是一個(gè)學(xué)生的GPA。我們把GPA做一個(gè)排名,排名最靠前的那些學(xué)生自然就是成績最好的那一些。
用抽樣數(shù)據(jù)解決大問題
我們有時(shí)要解決一些大問題,比如:我們想知道一個(gè)城市中到底有多少流浪漢。我們沒法把整個(gè)城市的流浪漢挨個(gè)數(shù)一遍,我們只能抽樣。通過計(jì)算某個(gè)區(qū)域內(nèi)的流浪漢數(shù)量,基于此推測別的區(qū)域內(nèi)的流浪漢數(shù)目。當(dāng)然,這樣算出來的數(shù)字肯定是不準(zhǔn)確的,但是只要抽樣和計(jì)算的方法正確,得到的結(jié)果也不會(huì)有特別大的偏差。
評(píng)估風(fēng)險(xiǎn)
保險(xiǎn)行業(yè)都是依靠統(tǒng)計(jì)學(xué)來生存的。比如對(duì)針對(duì)火災(zāi)的保險(xiǎn)而言,他們要知道在某個(gè)地區(qū)的火災(zāi)發(fā)生的概率,根據(jù)概率計(jì)算出保費(fèi)和賠付上限。只要按照這個(gè)思路,保險(xiǎn)公司虧錢的概率將變得非常低。在車險(xiǎn)上,今年出過事故的司機(jī)下一年的保費(fèi)會(huì)變得更貴,這也是因?yàn)橐粋€(gè)今年出過事故的人明年再次出事故的概率會(huì)更高一些,他們可能會(huì)有更糟糕的駕駛習(xí)慣,所以保險(xiǎn)公司需要向他們收取更高的保費(fèi)來平衡風(fēng)險(xiǎn)。
同理,博彩公司、彩票、賭場等行業(yè)也都是靠著統(tǒng)計(jì)學(xué)來賺錢的,不可能總是有那么多人同時(shí)贏錢,他們也許在某天運(yùn)氣不好會(huì)有虧損,但是從長遠(yuǎn)來看他們總是能賺到錢。
發(fā)現(xiàn)潛在的問題
我們同樣可以通過分析數(shù)據(jù)發(fā)現(xiàn)問題,比如:一個(gè)學(xué)校的平均學(xué)習(xí)成績不大可能突然突飛猛進(jìn);學(xué)生在難題的正確率不會(huì)遠(yuǎn)遠(yuǎn)超過簡單的題;一個(gè)城市的失業(yè)率一夜之間大幅提升。這些不符合正常規(guī)律的背后往往可能隱藏著問題,統(tǒng)計(jì)學(xué)可以幫助我們更容易的發(fā)現(xiàn)異常的情況。
分析問題相關(guān)性
統(tǒng)計(jì)學(xué)可以通過分析問題的相關(guān)性來尋找問題原因,比如:體重重的人會(huì)不會(huì)更容易感冒。研究人員收集人們的體重和感冒的次數(shù),進(jìn)行分析后,我們可以推導(dǎo)出體重和感冒次數(shù)兩個(gè)變量之間是不是存在相關(guān)性,并得出具有統(tǒng)計(jì)學(xué)意義的結(jié)論,為進(jìn)一步的研究打下基礎(chǔ)。
統(tǒng)計(jì)學(xué)的理論和應(yīng)用
平均數(shù)、中位數(shù)
這兩個(gè)概念都屬于描述性數(shù)字,它們各自有不同的用途。對(duì)于數(shù)據(jù)1、3、5、7、9、11、10002來說,平均數(shù)是(1 + 3 + 5 + 7 + 9 + 11 + 10002)/ 6 = 1673,而中位數(shù)是按照大小排序后在最中間的數(shù)7。在使用它們描述問題時(shí),需要進(jìn)行正確的選擇。一般情況下,中位數(shù)受到異常數(shù)據(jù)的影響會(huì)更小。如果異常數(shù)據(jù)不多,中位數(shù)跟平均數(shù)應(yīng)該比較接近。
相關(guān)性和相關(guān)系數(shù)
相關(guān)性體現(xiàn)出變量之間互相關(guān)聯(lián)的關(guān)系。如果一個(gè)變量隨著另一個(gè)變量增加而增加,則這兩個(gè)變量存在正相關(guān)性,比如身高和體重的關(guān)系,反之亦然。相關(guān)系數(shù)代表著變量之間相互影響的劇烈程度,如果相關(guān)系數(shù)為0表示變量之間不存在相關(guān)性,相關(guān)系數(shù)大于0則代表兩個(gè)變量為正相關(guān),相關(guān)系數(shù)越大說明兩個(gè)變量的關(guān)聯(lián)性越強(qiáng)。
必須注意的是,相關(guān)性是基于統(tǒng)計(jì)數(shù)據(jù)的分析的。真實(shí)世界中必然存在個(gè)子矮的人比個(gè)子高的人要重的情況,我們?cè)谟懻搯栴}時(shí)必須意識(shí)到這一點(diǎn)。另外,相關(guān)關(guān)系并不等于因果關(guān)系,這個(gè)點(diǎn)會(huì)在下面詳細(xì)解釋。
概率、期望和大數(shù)定律
概率是事件發(fā)生的可能性,期望是發(fā)生事件最有可能的結(jié)果。它們可以共同成為我們做出決策的依據(jù)。
彩票排列3的獎(jiǎng)金是1040元,它的中獎(jiǎng)期望是1 / (10 * 10 * 10) * 1040 = 1.04元,也就是你花兩塊錢買一注彩票最有可能得到的是一塊多一點(diǎn)。所以從理性的角度,不要把錢浪費(fèi)在彩票上。
概率畢竟只是對(duì)可能性的研究和預(yù)測,你仍然有可能只買一注兩塊錢的彩票就中了1000塊;你也有可能總是買到將要漲停的股票。如果你覺得自己就是運(yùn)氣爆棚,那就試試吧,祝好運(yùn)。
大數(shù)定律:隨著實(shí)驗(yàn)次數(shù)的增多,結(jié)果的平均值會(huì)越來越接近期望值。也就是說,我們投一個(gè)正常的6面骰,投的次數(shù)越多,平均值就會(huì)越接近3.5。大數(shù)定律可以推廣到更多的領(lǐng)域中:體育明星在登上雜志封面后經(jīng)常會(huì)出現(xiàn)狀態(tài)下滑的狀態(tài),這不是雜志的詛咒,而是因?yàn)檫@些明星經(jīng)常會(huì)因?yàn)槌桨l(fā)揮登上雜志封面的,終究他們的表現(xiàn)會(huì)回歸自身的平均水平。
標(biāo)準(zhǔn)差和中心極限定理
標(biāo)準(zhǔn)差用于衡量數(shù)據(jù)的離散性。數(shù)據(jù)在平均值周圍分布越密集,其標(biāo)準(zhǔn)差就越小。
中心極限定理意為,任意一個(gè)群體的樣本平均值都會(huì)圍繞著該群體的整體平均值周圍,并且呈正態(tài)分布。即應(yīng)該有百分之68%的數(shù)值位于平均值一個(gè)標(biāo)準(zhǔn)差范圍內(nèi),95%的數(shù)值在平均值兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
因此我們可以按照中心極限定理,通過正確的抽樣來確定整體的平均值(民意調(diào)查)。我們也可以通過判斷樣本平均值距離整體平均值的遠(yuǎn)近,推測該樣本是不是從整體中隨機(jī)抽取的。如果樣本平均值距離整體平均值兩個(gè)甚至三個(gè)標(biāo)準(zhǔn)差以上,就可以推測很可能有別的因素介入影響了樣本。
統(tǒng)計(jì)學(xué)的工具
統(tǒng)計(jì)推斷
統(tǒng)計(jì)推斷是一個(gè)讓數(shù)據(jù)說話,讓有價(jià)值的結(jié)論浮出水面的過程。它是依據(jù)基于樣本數(shù)據(jù)和問題模型,對(duì)未知事物做出的以概率為形式的推斷。上面關(guān)于中心極限定理的運(yùn)用就是統(tǒng)計(jì)推斷的一種思路。
統(tǒng)計(jì)推斷過程中的一個(gè)常用工具是“假設(shè)檢驗(yàn)”。現(xiàn)假設(shè)一個(gè)結(jié)論,再通過統(tǒng)計(jì)分析對(duì)其進(jìn)行支持或者反駁。假設(shè)檢驗(yàn)的細(xì)節(jié)和流程就不在這里展開細(xì)說了。
回歸分析
回歸分析可以幫助我們確定兩個(gè)變量之間的相關(guān)性,我們可以用統(tǒng)計(jì)學(xué)工具擬合出最佳的線性關(guān)系。
我們可以將一組身高和體重的數(shù)據(jù)擬合為下面這樣一個(gè)公式:
體重= -135 + 4.5 / 身高
這說明人的身高越高體重一般會(huì)越重。如果我們?cè)跀?shù)據(jù)里加上年齡,它就可能會(huì)生成如下的方程式:
體重 = -145 + 4.6 / 身高 + 0.1 / 年齡
年齡前的系數(shù)遠(yuǎn)小于身高,意味著平均年齡增長一歲,體重只增加0.1個(gè)單位,年齡對(duì)體重的影響比身高要小得多。我們?cè)僭跀?shù)據(jù)里加入性別的因素:
體重 = -118 + 4.3 / 身高 + 0.12 / 年齡 - 4.8 * 性別(女性為1,男性為0)
我們可以看到,回歸分析是一個(gè)非常強(qiáng)大的統(tǒng)計(jì)工具,它可以讓我們看到多個(gè)變量各自對(duì)結(jié)果會(huì)產(chǎn)生什么樣的影響,從而幫助我們分析和解決問題。
統(tǒng)計(jì)的陷阱
正確獲取數(shù)據(jù)
統(tǒng)計(jì)學(xué)是基于數(shù)據(jù)的科學(xué)。我們無法從一份錯(cuò)誤的數(shù)據(jù)中推出正確的結(jié)論,所以數(shù)據(jù)的獲取就至關(guān)重要。
先要確定要抽樣的用戶特征,針對(duì)他們?cè)O(shè)計(jì)抽樣方法:如果調(diào)查是針對(duì)某個(gè)學(xué)校學(xué)生家長,可以通過隨機(jī)抽取數(shù)據(jù)庫中手機(jī)號(hào)的方式對(duì)用戶進(jìn)行電話訪談;針對(duì)某個(gè)新聞網(wǎng)站的用戶,可以在新聞頁面投放問卷(需要注意的是,必須考慮到投放新聞的類型和形式會(huì)不會(huì)對(duì)目標(biāo)人群造成影響)。
同時(shí)測驗(yàn)的設(shè)計(jì)也很重要。用戶在軟件卸載界面做卸載理由調(diào)查時(shí),有可能直接選擇第一個(gè)默認(rèn)選項(xiàng),讓選項(xiàng)以隨機(jī)順序展示可以減少這種情況的干擾;問題本身不應(yīng)該用戶產(chǎn)生干擾和引導(dǎo)。
相關(guān)性不是因果關(guān)系
必須要注意的是,在分析問題時(shí),統(tǒng)計(jì)學(xué)只能推導(dǎo)出變量之間的相關(guān)性,而無法解釋原因,所以也可能是背后隱藏的第三個(gè)變量產(chǎn)生了影響。比如:如果家中的電視機(jī)數(shù)量和學(xué)生成績之間成正相關(guān),我們不能直接得出結(jié)論說家庭看電視越多,學(xué)生成績會(huì)越好。我們必須考慮到電視機(jī)更多的家庭往往會(huì)更加富裕,這樣的家庭可以給孩子提供更好的學(xué)習(xí)條件,孩子的平均成績自然會(huì)更好。
被壓縮的數(shù)據(jù)
從大數(shù)據(jù)中提煉出的描述性數(shù)據(jù)不可能百分百準(zhǔn)確,經(jīng)過壓縮的數(shù)據(jù)必然會(huì)忽略某些因素,以至于在一些場景下有失公平。我們必須理解并接受這一點(diǎn)。我們可以通過思考和分析讓我們?cè)O(shè)計(jì)的數(shù)據(jù)指標(biāo)盡量完善,但是要警惕不應(yīng)該陷入對(duì)無懈可擊的指標(biāo)的盲目追求,否則我們只會(huì)永遠(yuǎn)在停留在如何設(shè)計(jì)指標(biāo)這一步,而忘了我們的最終目的是解決問題。
選擇性的使用數(shù)據(jù)
我們可以通過巧妙的選擇數(shù)據(jù)來控制結(jié)論,詳見《赤裸裸的統(tǒng)計(jì)學(xué)》第三章《統(tǒng)計(jì)數(shù)字會(huì)說謊》。