前幾年曾在面試時遇到一個統計學的畢業生。據他說,每一場面試中他都需要向面試官們解釋統計學是什么,可即便如此還是有很多面試官認定他學的是數學,提出一堆高等數學的問題來考他。當他打不出來的時候自然就會被扣上個“學渣”的帽子。
說起來很多人分不清統計學和數學的區別也算是情有可原的,統計學本身也就是20世紀才發展起來的新學科,而且統計學中使用的很多計算涉及高等數學。對于沒有接受過專業學習的普通人來說要分辨其中的不同還是有難度的。
戴維·薩爾斯伯格的這本《女士品茶》通過對統計學界大師們的介紹串起了統計學的發展歷程,書里雖然沒有高深莫測的數學公式,但真讀起來也不是那么輕松的。
與其他任何一門科學一樣,統計學起源于生活。下午茶時一名女士提出將茶倒進牛奶里和將牛奶倒進茶里的味道是不同的。聽到這話的人們大多認為是這位女士的偏見,只有費希爾教授認真思索了這個問題,并嘗試通過實驗進行驗證。
聽起來只要做實驗是件挺簡單的事兒,可難就難在實驗如何設計。這應該是每一個統計學家面臨的難題。統計學的研究是建立在對數據的搜索、整理和分析之上的,使用哪些數據舍棄哪些數據,這些數據如何采集,需要考慮哪些變量和因素。對這些問題的不同回答都將引導出不同甚至完全相反的結果。
做過實驗的人都會知道,每一次實驗得到的結果并不必然相同。因為每一次實驗涉及的不可控變量有很多。而統計學家們只能對實驗得到的數據進行分析進而制造出統計模型。而當我們將統計模型用于剖析現實預測未來時則迎來了統計學中最重要的一個難題——統計模型可以用于制定決策嗎?
戴維選擇了“吸煙會致癌嗎”這個大眾很熟悉的論斷來解釋統計學面對的難題。醫學界實驗研究表明吸煙會導致癌癥,這激怒了大煙民費希爾。不巧的是,費希爾是統計學界的天才,他不僅懷疑研究人員刪減或改動了實驗數據,而且還質疑實驗使用的實質蘊涵不足以描述大多數科學結論。
醫學研究人員使用的實質蘊涵是由哲學家羅素提出的。羅素早在20世紀30年代就已經證明常見的“原因與結果”觀念是一種不自洽的思想。這個世界上并不存在什么原因與結果。原因與結果是大眾的幻想,它是一種模糊的觀念,經不起嚴格的理論推敲。羅素提出我們可以使用符號邏輯中一種明確定義的概念代替因果關系,這就是“實質蘊涵”。
費希爾認為吸煙與癌癥的因果證明過程中需要使用的并不是實質蘊涵,而應該使用對實驗對象進行隨機處理的實驗方法。而另一位統計學大家康菲爾德則認為,有些事情不允許你進行隨機實驗的設計,證據的積累也可以用于證明結論。
費希爾與羅素的分歧在于,統計學是概率體系,有些命題很可能為真,或者幾乎為真。而在邏輯世界中,一個命題要么為真要么為假,兩者之間存在清晰的界限。科恩提出的“彩票悖論”更能直接顯示出,根據概率觀點制定的決策并不是符合邏輯的決策。
20世紀統計學幾乎在所有學科中擊敗了決定論。在21世紀,統計學會不會步決定論的后塵呢?讓我們拭目以待!