文/泰閣志
1. 緣起
為了幫助大家和自己更好地學習數據分析,斗膽撰寫《人人都能用數據》系列,會同步在本人的微信公眾號/知乎專欄/頭條號/簡書(名稱都是泰閣志)。這是第一篇,打算從統計學講起。
之所以開始選擇統計學,原因如下:
市面良莠不齊,有“術”無“法”:
目前不少數據分析教程講的都是和數據相關的程序開發或所謂的數據驅動,然而,這些大都屬于“術”的層面。首先,術業有專攻,每個領域的業務不盡相同,不同業務之間的分析流程差異較大;其次,不同的數據技能,其通用性難以保證,各有專長,而入門者一開始就在某項技能上深入,很難培養數據分析的大局觀。正所謂一葉障目不見泰山。統計學是重中之重的方法論:
它和數據密不可分,卻要高于數據本身。可以說,在大數據時代,統計學提綱挈領,引領著數據分析的方法論,屬于“法”的層面。缺乏足夠統計學訓練的入門者,難以真正掌握數據分析的精髓。統計學是絕佳的邏輯思考武器:
比特幣大神和著名投資人李笑來曾在新生大學社群說過:“在這個時代,不懂一點統計和概率論,簡直就是文盲”。此言不虛,在這個數據爆炸的時代,我們的眼耳鼻舌身接收到的幾乎都是量化的信息,不懂統計,你就少了一樣看清世界真相的重要武器。
2. 統計學和數據分析的關系
說到統計學,我們先來看看它的維基百科定義:
統計學是在數據分析的基礎上,自17世紀中葉產生并逐步發展起來的一門學科。
它是研究如何測定、收集、整理、歸納和分析反映數據,以便給出正確消息的科學。統計廣泛地應用在各門學科,從自然科學、社會科學到人文學科,甚至被用來工商業及政府的情報決策之上。
隨著大數據(Big Data)時代來臨,統計的面貌也逐漸改變,與信息、計算等領域密切結合,是數據科學(Data Science)中的重要主軸之一。
好了,統計學和數據分析的關系一目了然:
統計研究數據的特征,并從中抽取規律來做決策。
那么,統計學是如何從大量貌似雜亂無序的數據中尋找特征的呢?簡單來說有兩點:
用圖形化呈現特征(可視化)
以某個數字來代表特征(該數即統計量)
從圖形化出發,我們先學習一個常見且重要的統計圖形:直方圖。
3. 直方圖(Histogram)
直方圖,可以理解為由一系列高度不等的縱向條柱來表示數據分布特征的統計報告圖,它是對原始數據進行壓縮的結果。
它的生成步驟如下:
- 找出原始數據集的最大值和最小值
- 根據最大值和最小值將原始數據大致劃分成若干組
- 確定各組的代表值,稱為組值
- 確定每組值的數據個數,稱為頻數
- 計算每組頻數的累計值,稱為累計頻數
- 在橫軸上等間距放置組值
- 在縱軸上做出柱狀圖,高度為該組值對應分組的頻數
以上步驟看起來可能比較抽象,我們大致了解即可。真正制作直方圖時,不需要我們親力親為以上步驟,一般的程序和工具包都可以直接繪制直方圖。
下面以常用語言Python和R為例來演示如何用程序生成直方圖,當然,這也是數據可視化的入門范例。
以下為Python產生直方圖的樣例代碼,運行環境為Mac終端的IPython:
以上Python代碼生成的直方圖效果如下:
以下為用R產生直方圖的樣例代碼,運行環境為Mac版的RStudio:
以上R代碼生成的直方圖效果如下:
注:上圖標題“breaks = 40”表示原始數據被分成40個數據組,該R代碼來自謝益輝的《現代統計圖形》
直方圖對理解統計學至關重要,請大家仔細體會和通過代碼學習。
題圖作者:William Bout
圖片授權基于:CC0協議