很多人都認(rèn)為統(tǒng)計(jì)學(xué)是如此的高深莫測(cè),讓普通人難以下手。記得本科時(shí)參加全國(guó)數(shù)學(xué)建模時(shí)有道題是根據(jù)土壤,陽(yáng)光,肥料等等條件評(píng)價(jià)葡萄生長(zhǎng)情況,當(dāng)時(shí)折騰SPSS統(tǒng)計(jì)軟件,也用p值處理我們的問題。考研時(shí),重新看概率論和數(shù)理統(tǒng)計(jì)時(shí)仍然覺得云里霧里,很多術(shù)語(yǔ)也只是虛知其表。遺憾當(dāng)年沒有邂逅《女士品茶》這本書,不然想來也能讓我在學(xué)習(xí)數(shù)理統(tǒng)計(jì)時(shí)多幾分樂趣呢。
初次拿到這本書時(shí),相信很多人和我一樣會(huì)被《女士品茶》這個(gè)書名所吸引,如果你也以為這是一本講述品茶或者茶道的書,那么倒不妨多看幾眼。原來這本書只是借女士品茶這個(gè)小故事帶領(lǐng)我們翻開統(tǒng)計(jì)學(xué)的史詩(shī),一起去看20世紀(jì)統(tǒng)計(jì)學(xué)的風(fēng)云人物怎么演繹這場(chǎng)史詩(shī)。
19世紀(jì),科學(xué)的大廈好像已經(jīng)建設(shè)完畢,科學(xué)界也形成了一種堅(jiān)定的科學(xué)觀念,這種觀念被稱為“按時(shí)鐘前進(jìn)的宇宙”。科學(xué)家相信,只要少量的數(shù)學(xué)公式,他們便可以描述,預(yù)測(cè)這個(gè)世界。從天上的行星到地上的石塊,萬物都畢恭畢敬地遵循著這些公式。1846年,科學(xué)家用牛頓數(shù)學(xué)定律預(yù)測(cè)了海王星的存在,更是科學(xué)的勝利之一。人們似乎相信,上帝造物的秘密已經(jīng)完全被掌握,剩下的工作只不過是修修補(bǔ)補(bǔ)。
然而正是這些修修補(bǔ)補(bǔ)發(fā)現(xiàn)了大問題,讓這座大廈轟然倒塌。當(dāng)時(shí)的實(shí)驗(yàn)者們發(fā)現(xiàn)觀測(cè)的數(shù)據(jù)與計(jì)算的數(shù)據(jù)總是不吻合,有誤差,一開始只是以為大氣擾動(dòng),人為差錯(cuò)導(dǎo)致的。但是隨著測(cè)量精度的提高,這些誤差不僅沒有消失,反而變大了。人們?cè)絹碓蕉嗟陌l(fā)現(xiàn),以前的公式只是一種粗略的估計(jì),數(shù)據(jù)上越來越多的顯示出隨機(jī)性。
至此,科學(xué)開始走向一種新的模式,即現(xiàn)實(shí)的統(tǒng)計(jì)模型。統(tǒng)計(jì)學(xué)開始逐漸走上舞臺(tái),成為20世紀(jì)的主角,并在21世紀(jì)依舊熠熠生輝。
統(tǒng)計(jì)學(xué)的天下###
“父母越高,孩子越高?為什么長(zhǎng)久以來人類的身高沒有大的變化?”
在《女士品茶》中最先出現(xiàn)的就是Galton做的這段研究。似乎有某種神秘力量讓人類身高遠(yuǎn)離極端,朝著所有人的平均值靠攏。高爾頓把這個(gè)現(xiàn)象稱為“均值回歸”,很多領(lǐng)域都運(yùn)用到了這個(gè)模型。人類的身高基本維持穩(wěn)定,物種在代與代間維持相似性,不過最先以公式表現(xiàn)的確實(shí)他的學(xué)生Karl Pearson。
從這里開始,統(tǒng)計(jì)學(xué)的一個(gè)個(gè)大神們悉數(shù)登場(chǎng),Karl Pearson提出了用偏斜分布思考測(cè)量出來的數(shù)據(jù),揭示了科學(xué)研究的對(duì)象不是可以觀察到的事物,而是描述觀測(cè)值概率的數(shù)學(xué)分布函數(shù),從而掀起了統(tǒng)計(jì)學(xué)的革命。
Gosset在吉尼斯釀造公司通過解決測(cè)量在麥芽漿發(fā)酵是其所用的酵母數(shù)量,找到了泊松分布在顯示生活中的應(yīng)用,大大提高了產(chǎn)品的穩(wěn)定性。Karl Pearson在測(cè)量時(shí)都使用的大樣本,Gosset在尋找小樣本測(cè)試方法的過程中又提出了t檢驗(yàn),由于在公司就職的關(guān)系,用student的筆名發(fā)表了一系列論文。與此同時(shí),Gosset還擔(dān)當(dāng)兩大天才Pearson與Fisher之間的調(diào)解人,這位Fisher就是主持了女士品茶的英國(guó)男子,檢測(cè)女士通過品茶猜測(cè)是茶先倒進(jìn)奶里還是奶先倒進(jìn)茶里的。
Fisher對(duì)統(tǒng)計(jì)學(xué)的貢獻(xiàn)是無與倫比的,也是這本書里給我印象最深的。他在農(nóng)場(chǎng)里,通過過去90年的數(shù)據(jù),分析了農(nóng)作物與氣候,雨量,殺蟲劑,肥料之間的關(guān)系,發(fā)表了一系列的《收成變動(dòng)研究》,引入方差分析,提出最大似然方法。Pearson的方法被丟入了垃圾堆。
《女士品茶》中描述了許多Pearson與Fisher斗爭(zhēng)的細(xì)節(jié),比如Pearson早期拒絕發(fā)表好幾篇Fisher的論文,不過后來還是Fisher不斷提出的方法占據(jù)了學(xué)術(shù)界的主流,Fisher后來提到當(dāng)他想要為人類的知識(shí)寶庫(kù)獻(xiàn)上一顆寶石時(shí),他一定會(huì)受到某些人的攻擊,學(xué)術(shù)研究就是不斷的用最新的研究成果推翻前人的,不是說誰(shuí)的是正確的,只能說誰(shuí)的理論在當(dāng)時(shí)最符合事物所展示出來的特征。
當(dāng)然,統(tǒng)計(jì)學(xué)的巨變不僅僅發(fā)生在英國(guó),在俄國(guó),有天才的Kolmogorov,在Fisher影響下,統(tǒng)計(jì)學(xué)的方法傳到了美國(guó)、印度、澳大利亞和加拿大,指導(dǎo)著各行各業(yè)的生產(chǎn)。統(tǒng)計(jì)學(xué)學(xué)科也在各國(guó)大學(xué)發(fā)芽生根,產(chǎn)生一大批著名的統(tǒng)計(jì)學(xué)家,持續(xù)地研究新問題,為統(tǒng)計(jì)學(xué)提供新的理論血液。
書中最有趣的地方莫過于統(tǒng)計(jì)學(xué)家們研究的一個(gè)個(gè)問題,從開篇的女士品茶,到大煙民Fisher固執(zhí)地用統(tǒng)計(jì)學(xué)的觀點(diǎn)反駁吸煙與肺癌之間的關(guān)系,再到研究殺蟲劑的致死量,一個(gè)個(gè)鮮活的故事,將統(tǒng)計(jì)學(xué)的各種概念串聯(lián)起來,最大似然估計(jì),假設(shè)檢驗(yàn),中心極限定理,大數(shù)定理,p值,一個(gè)個(gè)概率論與數(shù)理統(tǒng)計(jì)中的術(shù)語(yǔ)悉數(shù)登場(chǎng),卻褪去了往日學(xué)習(xí)它們時(shí)冷冰冰的樣子,變成了一個(gè)個(gè)精彩的故事。同樣精彩的還有統(tǒng)計(jì)學(xué)家們的故事,天才中的天才,或固執(zhí)或謙遜,共同演繹了一幅精彩的統(tǒng)計(jì)學(xué)史。
時(shí)至21世紀(jì),統(tǒng)計(jì)學(xué)依然發(fā)出其耀眼的光芒,看似高深的統(tǒng)計(jì)學(xué),其實(shí)與我們的生活有莫大的關(guān)聯(lián)。大數(shù)據(jù)的流行,使越來越多的行業(yè)以數(shù)據(jù)作為驅(qū)動(dòng)工具,分析數(shù)據(jù),看到數(shù)據(jù)背后隱藏的秘密。統(tǒng)計(jì)學(xué)的思想大有勇武之地,如果你也對(duì)這一切有興趣,倒不如也看看這本書,也許在做數(shù)據(jù)分析時(shí),看到的不僅僅是繁復(fù)的數(shù)據(jù),也能想到一個(gè)個(gè)統(tǒng)計(jì)學(xué)方法背后有趣的故事~
上帝擲骰子嗎?我們不得而知,但唯一能描述宇宙的語(yǔ)言也就是數(shù)學(xué),因?yàn)樯系垡欢ㄊ菙?shù)學(xué)家。時(shí)代雖然在變遷,但人們對(duì)自然的好奇與向往卻終究不曾變化。