數據統計是一門枯燥、難懂的工作嗎?除了數字、圖表還是圖表嗎?其實,在生活中,我們經常可以運用統計學去做分析。今日,我們大圣眾包平臺(www.dashengzb.cn)就挑選幾個統計學相關的有趣的小案例。
1、啤酒與尿布的故事
啤酒與尿布的故事,應該早有耳聞吧,這個算是經典數據挖掘的案例了。故事就是全球最大的零售商沃爾瑪通過分析顧客購物的訂單數據后發現,很多周末購買尿布的顧客同時也購買啤酒。特別是年輕的爸爸,買尿布照顧小孩之時,不忘自己看球賽喝啤酒的愛好。小小的數據挖掘,大大提升了銷量,也塑造了個經典故事。
2、QQ圈子把前女友推薦給未婚妻
這并不是個笑話或者個例哦,記得2012年3月騰訊推出QQ圈子,這個圈子就是根據你的共同好友的連鎖反應攤開用戶的人際關系網,把用戶的前女友推薦給未婚妻,把同學同事朋友圈子分門別類,利用大數據處理能力給人帶來“震撼”。
3、《紅樓夢》作者考證,曹雪芹只寫80回
眾所周知,《紅樓夢》一書共120回,自從胡適作《紅樓夢考證》以來,一般都認為前80回為曹雪芹所寫,后40回為高鶚所續。不過,這種看法一直都飽受爭議。
能否從統計上做出論證?從1985年開始,復旦大學的李賢平教授帶領他的學生作了這項很有意義的工作,他們創造性的想法是將120回看成是120個樣本,然后確定與情節無關的虛詞出現的次數作為變量,巧妙運用數理統計分析方法,看看哪些回目出自同一人的手筆。
一般認為,每個人使用某些詞的習慣是特有的。于是李教授用每個回目中47個虛詞(之,其,或,……;呀,嗎,咧,罷……;可,便,就……等)出現的次數(頻率),作為《紅樓夢》各個回目的數字標志。之所以要拋開情節,是因為在一般情況下,同一情節大家描述的都差不多,但由于個人寫作特點和習慣的不同,所用的虛詞是不會一樣的。利用多元分析中的聚類分析法進行聚類,果然將120回分成兩類,即前80回為一類,后40回為一類,很形象地證實了不是出自同一人的手筆。
之后又進一步分析前80回是否為曹雪芹所寫?這時又找了一本曹雪芹的其它著作,做了類似計算,結果證實了用詞手法完全相同,斷定前80回為曹雪芹一人手筆,是他根據《石頭記》寫成,中間插入《風月寶鑒》,還有一些別的增加成分。而后40回是否為高鶚寫的呢?論證結果推翻了后40回是高鶚一個人所寫,而是曹雪芹親友將其草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當為另一人所寫等等。
這個論證在紅學界轟動很大,李教授他們用多元統計分析方法支持了紅學界的觀點,使紅學界大為贊嘆。
4、喬布斯利用大數據延長生命
“蘋果之父”喬布斯于2011年10月5日去世,其實,喬布斯犯癌癥不是一天兩天的事了,他曾支付幾十萬美元醫療費,進行了對所有DNA和腫瘤DNA進行排序,然后醫生根據基因的數據文檔進行針對性治療用藥,這一行為也使得他成為世界第一人。因此,他延長好幾年的生命,要不然可能早死了。
5、出租車肇事縮小調查范圍
某市發生一起出租車肇事逃逸案件,當時目擊證人僅有一位。據證人陳述,肇事車為綠色。該市出租車僅有藍、綠兩種顏色,其中0.5%的出租車為綠色。目前已排除了外市出租車肇事的可能性。
同時,為了驗證證人的辨色能力,還專門對其進行了辨色測試。測試結果表明,無論對藍色還是綠色,證人都能以95%的概率判斷正確。即若出租車為藍色(綠色),證人100次中能有95次準確地判斷出車為藍色(綠色)。
現在的問題是公安部門是否應該完全相信證人的目擊,而把調查完全放在該市的綠色出租車上?
通過統計中貝葉斯公式的計算,我們會發現證人的目擊并不能成為調查的依據,仍然需要將調查的重點放在藍色出租車上。
6、Google成功預測冬季流感
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,并建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。
其實,生活中還有很多利用數據分析、統計學等原理的案例,之前我們大圣眾包也盤點過一些案例,理論要學以致用,運用到實際生活中才有魅力啊!
原文地址:http://www.dashengzb.cn/articles/a-164.html
(更多大數據與商業智能領域干貨、兼職機會及行業資源分享等請關注大圣眾包平臺,或添加大圣花花個人微信號(dashenghuaer),拉你入bigdata&BI交流群330648564。)