描述統計 Descriptive Statistics

基本概念

統計是對數據進行收集、分析、展示和解讀的科學和藝術,這句話聽起來很高深,但其實也沒必要非要把統計想得過于復雜和深奧,一個簡單的把數據按照從高到低的順序整理的過程也可以稱為統計。

采用一定的工具如圖表、圖形和計算,對被觀察對象的數據進行整理,得到諸如均值 Mean/ Expectation,方差 Variance,頻數 Frequency,交叉表 Crosstabulation,直方圖 Histogram,柱狀圖 Bar Chart 等形式,并借助這些整理的結果來對數據進行解讀的統計學應用稱為描述統計 Descriptive statistics。

在統計學中,被研究的對象的所有可能的結果的集合稱為總體 Population,之所以采用這個詞是因為正是人口普查 census 催生了現代統計學的很多研究結果,所以總體這個英文單詞最常用的翻譯是“人口”。

在實際應用中,想統計全部的人口或任何一個研究對象的總體都是不容易的,因此常常需要通過統計學知識利用從總體中抽取的樣本數據中觀測到的統計值來對總體數據的相應特征進行推斷,這一統計學應用稱為推理統計 Inferential statistics。在推理統計中,為了使得他人可以了解推斷的質量和準確性,除了點對點的給出總體的某些描述統計特征(點估計 Point estimate)外,還會同時給出這些總體特征的可能的取值區間(區間估計 Interval estimate),實驗者對于這個區間包含總體特征的置信程度 confidence level 等來進一步對結果進行說明。

由于被研究的對象的某些特征的取值很可能是事先難以確定的,因此是可以說取值是一些變量 variable,所以我們常用變量符號如 x,y 來表示,而為了便于定量的研究這些變量而嚴格限制每一個變量的結果都采用數值的形式加以表示時,這些變量在統計學的語境中就被命名為隨機變量 Random variables。

描述統計簡介

最基本的描述統計就是以表格的形式對數據進行整理歸類,在分類的基礎上進行頻次統計、相對頻率、頻率百分比和其他描述統計指標的計算,在這個過程中還可以將統計的結果可視化,從而在雜亂無章的數據中找出隱含的信息,如數據的分布形態,集中程度等。

Frequency statistics with tabular form

在進行頻數統計時,從更有效的數據可視化的角度,對于類別型數據 Categorical data 和個別離散型數值數據 Quantitative data 可以通過柱狀圖 bar chart 來將數據分類,而對于大多數數值數據,尤其是連續型數值數據來說應該用直方圖 Histogram 來進行統計。并且如果采用橫軸做量值的分類,縱軸做頻數統計的話,除非數據本身有空位,否則不應該為了區分不同類別而人為的改變橫軸的度量比例,而是應該使用緊鄰的直方圖,并保留數據原有的分布形狀,因為在很多情況下這些形狀本身就蘊含著很多信息。關于在數據可視化中的圖形選擇原則,可以參考 Data Visualization: Rules for Encoding Values in Graph

Histogram

上述列表分析和可視化都是針對單個隨機變量而言的,如果針對兩個隨機變量,則在歸類時可以使用交叉表 Crosstabulation 來做匯總,并重點關注列表的交叉區域,以了解這兩個變量之間的關聯關系。這里需要注意的是,如果數據分析中涉及多個交叉列表,有時會需要將多個交叉列表合并成一個新的匯總性的交叉列表。此時,從這個匯總的交叉列表中尋求結論時需要注意 Simpson 悖論 問題,即需要注意是否有對結果解讀有影響的因素在匯總時被忽略掉了。

Crosstabulation

在可視化中,當兩個變量的取值都是數值型數據時,可以通過散點圖 Scatter plot 來將統計的結果可視化,從而一目了然的發現二者之間的關系:

Scatter plot and trendline

而當這兩個變量中有一個是類別數據時,則可以采用并列柱狀圖或累計柱狀圖來進行可視化:

Side by side bar chart
Stacked bar chart

隨機變量取值位置情況的度量

在取得隨機變量的多個不同的取值以后,在統計中每一個取值稱為一個樣本點,可以通過一些指標對于這些取值的位置特性進行一個度量,其中一個非常重要的指標就是均值。

均值 Average/ 期望 Expectation

均值這個指標是如此重要以至于它已經融入到我們的日常表達中,我們常說某個事情的平均水平是某個值,就代表如果從樣本集中獲取一個樣本,可以預期其取值應該在平均水平附近,因此均值也被稱為期望 Expectation。

為了區分總體和樣本,總體的均值用 μ 來表示,總體中所包含的樣本點的數量用 N 表示,樣本的均值用 x? 來表示,樣本中所包含的樣本點的數量用 n 表示。

總體的均值為:

  • μ = Σxi / N,其中 i = 1, ... , N

樣本均值為:

  • x? = Σxi / n,其中 i = 1, ... , n

下面這張圖形象的描述了均值的“位置”描述能力,即均值取值的位置會隨著樣本集中不同的樣本點的取值的變化而變化。

Every value from samples has their impacts on the location of Mean
加權平均 Weighted average

在一般的均值計算中,可以認為對于各個樣本點的權重都是相等的,即都等于 1/n,在一些情況下也需要給予不同的樣本點不同的權重,這樣的均值計算稱為加權平均,其計算公式為:

  • x? = Σwixi / Σwi,其中 wi 為第 i 次觀察值的權重

下圖這個多次以不同價格采購不同數量的產品,如果想要了解所有被采購產品的平均價格,就需要采用加權平均,其最終平均價格為:

  • x? = (3 x 1200 + 3.4 x 500 + 2.8 x 2750 + 2.9 x 1000 + 3.25 x 800) / (1200 + 500 + 2750 + 1000 + 800) = 2.96
Weighted average
幾何平均數 Geometric average

嚴格意義上講,前面的均值計算應該稱為算數平均數,還有一種均值的計算方式稱為幾何平均數,其計算公式為:

  • x?g = (x1x2... xn)1/n

其典型應用場合為對于變化速率的計算,如復利計算、年增長率計算等。例如如果一筆投資第一年利率為 0.06,第二年利率為 0.08,第三年利率為 0.10,那么這三年的平均利率應該為 0.0799,也即是說如果每年的利率是 0.0799,那么在期初投資同一筆錢,三年后兩種模式下的收益是一樣的。

中位數 Median

將樣本集中的所有樣本點按照從小到大的順序排成一個數列后,位于這個數列中間位置的那個數稱為中位數,當樣本集中包含的樣本的個數為偶數時,取中間兩個值的平均值。在描述樣本集的位置情況時,中位數相比均值不容易受到異常值 outlier 的影響。

眾數 Mode

將樣本點做頻數統計后,頻數最高的那個數就稱為眾數 Mode,這個數值反映了一種取值的傾向性,所以對應的在英文中用的是 Mode,這個英文單詞比較令人熟知的翻譯是“趨勢”。

百分位數 Percentiles

百分位數提供了樣本集中樣本取值的相對位置信息,其正式的定義為:

The pth percentile is a value such that at least p percent of the observations are less than or equal to this value and at least (100 - p) percent of the observations are greater than or equal to this value.

四分位數 Quatiles

百分位數最常用的一個特例是將樣本集的取值由 25%,50%,75% 百分位數分成 4 個部分,常用 Q1,Q2,Q3 來表示。

隨機變量取值變動情況的度量

除了對隨機變量取值的位置進行度量以外,我們還需要了解這些取值的變動或分布情況。

取值范圍 Range

最簡單的衡量取值變動程度的指標就是取值范圍,也即最大值與最小值之差。

四分位差 Interquartile range

由于取值范圍容易受到異常的極大和極小值的影響,因此對于數據的整體分布情況的度量能力有限,一個更進一步的度量方式是采用 IQR = Q3 - Q1,也即 75 百分位數與 25 百分位數之差來給出中間 50% 的數字的取值范圍。

方差

與前幾個分布指標相比,方差充分考慮到了數據集中每一個隨機變量的取值與數據集的均值的偏差值 deviation ,并以此來計算數據分布情況。

同樣地,總體的均值用 μ 來表示,總體中所包含的樣本點的數量用 N 表示,樣本的均值用 x? 來表示,樣本中所包含的樣本點的數量用 n 表示。

總體的方差計算公式為:

  • σ2 = Σ(xi - μ)2 / N

樣本的方差計算公式為:

  • s2 = Σ(xi - x?)2 / (n - 1)

樣本方差的分母為 n - 1 是因為樣本集的數據離散程度大概率上是小于總體的離散程度的,并且在現實應用中總體的數據是很難獲得的,都是需要用樣本的方差來近似總體的方差,此時就需要將樣本的方差做一個校正,校正方式為將原方差公式中的 n 替換成 n - 1 將樣本的方差做一個放大。

Sample variance computation

標準差 Standard deviation

在計算樣本集中每個樣本的取值與均值的偏差時,由于對于任何數據集都有 Σ(xi - x?) == 0,因此方差計算中采用的是偏差的平方和 Σ(xi - x?)2。對于量值數據來說,方差的單位是原有隨機變量量綱的平方,而將方差做開方后得到的值則和隨機變量具有相同的量綱,這就使得通過這個統計值來和原有隨機變量的取值進行比較成為了可能,這個開方的結果稱為標準差。

變動系數 Coefficient of variation

由于標準差與隨機變量的取值以及均值都具有相同的量綱,因此可以直接進行比較,我們將標準差與均值的比值定義為變動系數:

  • 標準差 / 均值 x 100%

變動系數比較了標準差與均值之間的關系,可以直觀的了解隨機變量取值的變動程度。

隨機變量取值分布的形狀的度量

偏斜程度

在之前的內容里曾提到了直方圖對于分布形狀的描述能力,最簡單對于分布形狀的一個描述就是總體取值的偏斜程度 Skewness,其不僅可以定性的描述為“左偏”,“右偏”,還可以通過定量的計算來獲得,其計算公式為:

  • Skewness = nΣ[(xi - x?) / s]3 / [(n - 1)(n - 2)]

其絕對值越大代表偏斜程度越高,并且右偏結果為正值,左偏結果為負值。當數據右偏時,均值一般會大于中值,當數據左偏時,均值會小于中值,所以中值在數據偏斜程度比較高的時候可以比均值更好的衡量數據分布的位置。

標準值 z-score

除了樣本集總體的分布情況外,對于每一個樣本的取值都可以通過定義一個 z-score,也稱標準值 standardized value ,來了解它在數據集中的相對位置,對于第 i 個樣本點,其標準值為:

  • zi = (xi - x?) / s

標準值可以理解為樣本點的取值與均值的偏離程度可以用多少個標準差的值來衡量,偉大的 Chebyshev 對于數據分布情況和標準值之間的關系給出了一個定理,使得我們可以大致的計算在均值附近的某一個范圍內的數據分布的量:

At least 1 - 1 / z2 of the data values must be within z standard deviations of the mean, where z is any value greater than 1.

注意這個定理只針對 z ≥ 1 時才有效,但對于數據整體的分布形狀沒有要求,對應這個定理有:

  • z = 2 時,至少有 75% 的樣本取值落在均值附近正負 2 個標準差的范圍內

  • z = 3 時,至少有 89% 的樣本取值落在均值附近正負 3 個標準差的范圍內

  • z = 4 時,至少有 94% 的樣本取值落在均值附近正負 4 個標準差的范圍內

當數據整體上呈對稱分布時,基于切比雪夫定理可以對于數據的分布情況給出一個經驗法則 Empirical rule,即在對稱分布中:

  • 68% 的數據落在均值附近正負 1 個標準差的范圍內

  • 95% 的數據落在均值附近正負 2 個標準差的范圍內

  • 幾乎所有數據落在均值附近正負 3 個標準差的范圍內

Symmetric distribution

異常值檢測

在數據集中如果出現了一個或多個數值極大或極小的異常值,就會對一些位置描述指標的計算,如均值產生較大的影響,這些異常值應該在數據分析的過程中予以檢查,并酌情考慮剔除。常用的檢測標準為:

  • 根據經驗法則,對于對稱分布的數據,當 z > 3 的數據可以考慮刪除

  • 利用四份位差:

    • 合理下限:Q1 - 1.5IQR = Q1 - 1.5(Q3 - Q1)

    • 合理上限:Q3 + 1.5IQR = Q3 + 1.5(Q3 - Q1)

數據的描述

有了前面的這些描述指標,可以通過以下 5 個數字來對一組數據進行描述,簡稱 5 數描述法:

  • 最小值
  • 25 百分位值
  • 中值,也即50 百分位值
  • 75 百分位值
  • 最大值

這 5 個數字可以將即便很大的數據集做一個很好的劃分,如下圖所示:

5-number summary

更進一步地,在獲得了四分位差 Q3 - Q1 后,前面的 5 數描述法還可以使用盒型圖來可視化:

Box plot

在實際的數據分析中,在進行均值和方差計算前可以先通過對于數字進行排序后通過 5 數法和盒型圖來了解數據的分布情況,并檢查異常值,之后再做進一步的計算。

協方差 Covariance

上述指標的定義都是針對單一隨機變量的,而協方差衡量則可以衡量兩個隨機變量之間的線性相關性。對于隨機變量 x,y 來說,

總體的協方差計算公式為:

  • Cov(x, y) = σx,y = Σ(xi - μx)(yi - μy) / N

樣本協方差計算公式為:

  • Cov(x, y) = sx,y = Σ(xi - x?)(yi - y?) / n - 1,其中 i = 1, ... , n,n - 1 是為了實現校正

從這個計算過程可知:

  • 協方差的絕對值越大代表兩個變量圍繞各自均值同步偏離的程度越大,也即線性相關性越強

  • 如果結果是正的,則代表加總項中相同方向變化的項多于相反方向變化的項,即總體上同時增加或減小

  • 如果結果是負值,則代表隨機變量的多個取值圍繞各自均值的變化方向總體上是相反的,加總項中常出現的是一個變量的取值在均值的一側,而另一個變量的取值在均值的另一側。這里還可以參考 GRAYLAMB的回答

相關系數 Correlation coefficient

盡管一定程度上協方差的絕對值對于相關性可以做一個判斷,但由于相關性的計算與相應的變量的量綱有關,因此同樣的一組數據,采用不同的量綱計算得到的協方差的結果不同,因此為了消除掉量綱的影響,定義了相關系數。例如當其中一個變量為身高,另外一個變量為體重時,協方差的量綱則難以被定義。

總體的相關系數計算公式為:

  • ρx, y = σx,y / (σx σy)

兩個隨機變量樣本集中 x,y 的相關系數計算公式為:

  • rx, y= sx,y / (sx sy)

相關系數的計算剔除了兩個隨機變量各自的標準差在協方差中的影響,使得相關系數只衡量兩個隨機變量的多個取值圍繞各自均值的變化方向的相關性,其取值范圍為 [-1, 1]:

  • 當 ρx, y = 1 時,說明在所有取值上兩個隨機變量圍繞均值的變化方向均相同,當 ρ = -1 時反之

  • 當 ρx, y = 0 或者非常接近 0 時,說明兩個隨機變量不具有線性相關性或線性相關性較小。但這并不意味著這兩個隨機變量一定相互獨立,也可能具有其他的相關性,除此之外,還要注意相關關系并不意味著因果關系

Near zero correlation coefficient only indicate weak linear correlation but by no means not related at all
  • 當 0 < ρx, y < 1 時,說明兩個隨機變量的多個取值圍繞均值變化的方向有時是一致的,有時是不一致的

再做一個類比,在線性代數中已知兩個 n 維向量 ab,則有:

  • cosθ = a ? b / (||a||||b||) = Σaibi / (Σai2Σbi2)1/2

這個夾角也稱為余弦距離,常被用來判定兩個向量之間的相關關系。仔細對比相關系數和余弦距離這兩個公式可以發現二者討論的其實是同一個問題:只需要將隨機變量 x 的取值結果向量化為 x,并令 a = x - x?,如此則相關系數和余弦之間只間隔一個向量化的距離:

  • 當 cosθ = 1 時,夾角為 0°,對應相關系數計算為 1,二者共線且方向相同,此時完全正向線性相關

  • 當 cosθ = -1 時,夾角為 180°,對應相關系數計算為 -1,二者共線且方向相反,此時完全反向線性相關

  • 當 cosθ = 0 時,夾角為 90°,對應相關系數計算為 0,二者互相垂直,線性無關

數學原理本身是不分學科和專業的,它們被分離在不同的課本和學科內是為了方便的在一個領域內形成一個體系,但在理解數學的時候完全可以突破學科和課本的限制,這樣才能形成一個更加廣闊的圖景。

Spearman's rank correlation

相關系數也被稱為 Pearson's Correlation,以表彰 Karl Pearson 在統計領域所做出的貢獻。這個統計量在兩個變量不具有線性相關性時會忽視二者之間的關系,且其計算容易收到異常值的影響,為了克服這一缺點,引入了 Spearman's rank correlation,后者的計算方法為首先先將兩個變量按照數值大小進行排序,在排序的基礎上再計算二者的相關系數。

決定系數 Coefficient of Determination

這一部分是我自己做的一個擴展,并非書上的內容,為了方便查看放在了這里,不代表原書作者的觀點。

在實際的統計工作中,如果已知疑似具有線性關系的自變量 x 和因變量 y 的多個取值,我們可以通過最小二乘法來構建一個線性回歸模型 ? = mx + b 來對新的 x 生成一個具有預測作用的 y 的取值。在這個過程中,我們可以通過最小平方誤差 MSE 來衡量模型的預測值與實際取值之間的差異。

Sum of squared errors by predicting with regression

但假如我們只有一系列的 y 的值而沒有對應的 x 的取值,此時,如果需要構建 y 的預測值,最好的辦法就是通過計算 y 的均值,并且用這個值來作為未來所有 y 值的預測值。在這個過程中引入的誤差值如果在 x 與 y 具有線性關系的時候會大于上述回歸得到的誤差值。

Sum of squared errors by predicting with y average

這兩個誤差值之間的相對差異被成為決定系數 Coefficient of Determination,因為這個值也是相關系數 r 的平方,因此也稱為 R2。對應上面這個例子,R2 = (41.1879 - 13.7627) / 41.1879 = 0.6659,也即 R2 衡量了線性回歸在 y 的預測過程中對于誤差的減少的量。

R-squared tells us what percent of the prediction error in the y variable is eliminated when we use least-squares regression on the x variable.

如果我們仔細觀察上述兩個計算過程,就可以知道針對 y 均值的計算過程實際上獲取的是 y 的方差值,或變動值,因此,我們也可以說 R2 衡量的是 x 值的變動情況對于 y 的變動情況的影響。

How much of the total variation of y is determined/described by the variation in x.

免責聲明

我寫這個筆記是為了系統的復習概率論中的一些概念,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版,這是一本非常經典的參考書,毫無保留的滿分推薦。盡管書名暗示了是在商業和經濟學中的統計學,但根本的統計學知識是不變量,并且和很多優秀的原版書一樣,作者時刻注意用實例來講解統計學概念,基本上每一個新的概念的定義都建立在日常生活的實例的基礎上,在此基礎上還保留了精美的排版和精心設計的插圖,十分便于理解。

筆記最重要的一個目的就是記錄者復習的重要資料,如果能對別人也有所幫助那就是額外的獎賞了,所以為了復習方便我擅自截取了書中的很多插圖,這些插圖僅限于個人學習使用。其他人請勿直接轉載,如轉載請刪除插圖并附帶這則免責聲明,否則由此而產生的版權問題,請轉載者自行承擔。

參考閱讀

  1. R squared intuition
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容