? ? ? ?統計學看起來很枯燥,其實卻非常有趣。它是數學大家庭的一員,卻不像數學那般高冷,它的親民體現在生活中的方方面面,天氣預報,彩票預測......
? ? ? ?網絡時代的到來帶來了信息爆炸,各種各樣的數據呈現在我們面前,等待我們去梳理、分類,挖掘獲取有用的信息。大數據已經滲透我們的生活,并在不知不覺改變著我們的生活。
? ? ? ?上網時不斷推送的各種購物信息,推薦的電影信息,甚至餐廳推薦,不得不說,網絡有時候比你的朋友對你更了解,它知道你喜歡什么類型的電影,最近讀了什么書,買了什么東西,準備買什么,你生活的方方面面它都一清二楚,在網絡面前,有時候我們是透明的。
? ? ? ? 該書結合生活中的各種事例闡述統計學的基本理論,例如從網上電影推薦系統說起,講述了相關性和相關系數的概念,即為對電影喜好相同的某一類人群,推薦其人群喜歡而作者還未看過的電影,則推薦的準確率要高很多。而從買彩票和買股票的長期均值和期望來看,買股票的利潤要遠遠高于買彩票,而買彩票長遠看總是虧本的。
? ? ? ? ?有時候,直覺會欺騙人,比如蒙提霍爾悖論(三門理論),利用統計學,則可以解釋清楚。
? ? ? ? ?當然,也不要盲從統計學,因為統計學使用的不恰當,往往會給人錯誤的指導。或者說利用數據統計說謊很容易,利用數據統計說出實情卻很難。因為數據統計涉及的內容太多,樣本的準確性,統計方法的正確性,任何一個小小的偏差,就會導致結論的錯誤。
? ? ? ? ? 比如嬰兒猝死癥案件,不能用群體性的概率去估計單個個體的概率,在群體中1%的概率,可能因為基因或其他因素,在某個個體身上概率就是100%。?
? ? ? ? ?而08年的金融風暴則是混淆了統計的準確性和精確性,數據的精確并不代表數據的準確,而一堆不準確的精確數據導致的后果可能是災難性的。
? ? ? ? ? 實際生活中的數據統計,往往面臨著準確取樣的困難。所以不能從數據的表面去妄測事情的因果。比如統計發現愛喝茶的人比愛喝酒的人身體更健康,就推論喝茶有利身體健康。而實際上,愛喝茶的人可能在生活習慣等方面與愛喝酒的人是有本質的不同的,他們是完全不同的兩類人,這樣得出上面的結論就是不準確的。
? ? ? ? ? ? 另外一個事例,美國某個城市的肺結核病人比較多,就由此推測該城市空氣污染嚴重,不適合肺部健康。而實際上是該市藍天綠草,空氣質量非常好,非常有利于肺部健康,正是因為如此,很多肺結核病人來此地療養,就顯得此地的肺結核病人非常多。所以很多時候表面的因果關系其實是相反的。
? ? ? ? ? 書的末尾,再次強調了,使用數據一定要非常審慎,因為得出一個正確結論的難度要比錯誤結論的難度大很多。