統計思維——通過統計方法解決分析問題

數據分析中總離不開統計學中的相關概念和方法,因而統計思維也是數據分析思維之一。在數據分析中,統計思維就是用統計的相關思維,來解決數據分析的問題。

一數知全局

這是16年的政府工作報告的講話,從講話中,你能看到什么?

看到這段話你能想到什么

16年政府工作報告的這段話中,有兩個數據勞動年齡人口平均受教育年限10.23年和10.8年,這兩個數據看似差別不大,然而回歸到日常生活領域中,卻能昭示出很多問題。

這段話背后的問題

通常來說,一個人在大學以前,如果沒有留級或者跳級的情況,一般要經歷小學6年,初中和高中各3年的教育時間。因此在接受高等教育前,需要經歷12年的基礎教育。然而在總理的報告中體現出來的勞動年齡人口平均受教育年限不到11年,不禁讓人有這種感覺:應該有大多數人沒有讀完高中,最多只讀完高一,甚至還有很多人只是讀完了初中。

按照這個思路去查閱相關數據,誠然如此,05年初中升學率50%,14年初中升學率到56%,也就是說近一半的人,都沒有讀高中,更不要說接受一年高一的教育了。

10年的初中升學率就能說明問題

讓我們有這種認識的是來源于這兩個10.23年和10.8年的數據,這兩個數據的核心在于平均二字。平均值是統計學中最基本和最重要的統計量之一,通過這個統計量就可以從簡單的數據中發現相當多的信息。

混亂之中求秩序——統計量的作用

就像一個平均值發現只有一半的人才能讀高中一樣,統計量往往在一堆龐雜的數據中能夠起到管中窺豹的情況。

當你看到一堆數,只需要用統計量,就能管中窺豹

從簡單的幾個統計量中,就能迅速知最重要的信息。這里常用的統計量除了平均值,還包括中位數,最大最小值,極差以及各種分位數等等。平均值、中位數、分位數可以提現出分布大致情況,最大最小值和極差可以體現出數據的極端情況。

總之利用這些統計量,能夠快速理清數據的大致情況。能夠快速分析多組數據,而不用進一步的去拆分對比,起到化繁為簡的作用。同時各種統計量的計算都是標準化的,某些時候進行分析時,可以通過計算相關統計量的關系對數據進行標準化處理,從而起到統一量綱的作用。

平均值——大概就是這樣大

平均值是最基本和最重要的統計量,其提現了一組數據的大致大小。當拿到兩組數據時候,有時往往通過對比平均值就能說明兩組數據之間存在的差異。

平均值:直接可以見差異

就如表格中的數據,簡單的看過去不能夠明顯發現兩組數據之間差別,A組中既有高于B組所有數據的數,也有低于B組所有數據的數,誰大誰小完全不能簡單的說明。然而當計算兩組的平均值后,可以知道A組的平均值是23,而B組的平均值是29,整體上說B組的數據是要大于A組的。

對于平均值而言,通常有算術平均值和加權平均值,當然還有更復雜的幾何平均值得情況,相對來說算術平均值和加權平均值較常用。對算術平均值而言,就是所有數據相加之后然后除以數值的數量。而加權平均值,就是每個數據值乘以其權重后再將每個乘積相加,其中所有的權重都為1。從兩個平均值的定義就可以發現,算術平均值其實是一種特殊的加權平均值,在算術平均值中,每個數值的權重都是相等的,如果有N個數字,那么權重就都是N分之一。

平均值算法

平均值除了對比不同組別的數據大小差異外,還能夠對比拆分后的對象與總體的關系。當總體拆分后,拆分出來的數值相加之和往往是總體的數值,任何對象的數值不論如何都比總體的數值小,因而不具備可比性。不過,當計算出總體的平均值后,就可能比較各個對象數值和平均值間差異,哪些對象位于平均值水平,哪些遠低于或者遠高于平均值。

14省GDP對比

例子中共有14個省份,這些省的GDP的平均值是2.46萬億,從圖中可以看出,只有4個省的GDP大于其平均值,其余10個省都低于平均值,從圖中也能看到各省的GDP呈現出分呈現分布不均的特性,江蘇GDP達到了平均值得2倍以上,而山西GDP只有平均值的一半。

中位數——一半對一半

平均值可以知道大致的大小,尤其是在對比可以起到作用。然而平均值并不能完全地揭示出問題所在,就比如說近幾年各種“被平均”的問題,讓平均值只能起到片面的作用。例如我我們一群普通人和馬云、王健林從平均收入一萬元經過十年到達了平均收入一個億,人人都知道馬云和王健林的收入遠遠高于一群普通人,甚至比普通人的總和加起來還多幾個零,因此這種情況下,平均值就有存在局限性。在知道了平均的基礎上,又知道分布的話,有能夠從數據中獲取更全面的信息。

中位數算法

分布是指數據的散布情況,其中常用的統計量是分位數,其中中位數是最典型的分位數了。顧名思義中位數正好是中間的數,當一組N個數值從小打到排列后,如果N為奇數,中位數就是N/2+1的位置的數值,如果N為偶數,中位數是N/2和N/2+1位置數值的平均值。

通過排列可以知道,當這組數據排除中位數以后,有50%的大于中位數,有50%的小于中位數。

當平均值和中位數相結合的時候,能夠同時考察一組數據的大致分布和大致大小,可以快速、簡便地看出數據中是否存在分布不均的情況。

中位數+平均值,破解被平均邏輯難題

正如表中工資數的例子,所有人的平均值是38萬,而中位數是員工工資10萬,平均值遠大于中位數,說明分布不均,呈現出“被平均”的狀態,即在數據中有大量的小數值數據以及少量的大數值數據。

平均值,能夠知道數據的大致大小,然而卻存在大小值分布不明確的情況,加上中位數以后,就能夠知道數據分布上的差異了。

四分位數——從分布到偏差

從平均值到中位數,能夠知道數據的大致大小和大致分布。盡管可以知道大致分布,以及最大值和最小值,去還不知道大多數對象集中哪個區間上面。這個時候,四分位數就能夠起到聚焦分布和排除偏差的作用。

四分位數,顧名思義,就是把一組數據分成四等分的統計量。而四分位數,并不是一個數,而是三個分位點,正好能夠從大到小把一組數據劃分為四份。

四分位數算法

在四分數中,包含三個數,分別是75分位數,50分位數,25分位數。50分位數就是中位數,有50%的數比其大,有50%的數比其小。75分位數與50分位數相似,正好是其大于75%的數,并小于25%的數。而25分位數就與75分位數相反,其大于25%的數,而小于75%的數。因此,可以這樣來理解75分位數和25分位數:75分位數是[50分位數,最大值]區間上面的中位數,而25分位數是[最小值,50分位數]區間上面的中位數。同時,25分位數和75分位數之間,正好構成一個區間,這個區間上面集中了一組數據中50%的對象,因此可以理解為,在這組數據中,有50%都集中在[25分位數,75%分位數]的區間上。

箱線圖是可以直觀體現四分位數的圖形,如圖可見,在箱線圖上分別呈現了上下邊界,即最大值和最小值在上下兩端,以及75分位數,中位數和25分位數構成了箱體,其中箱體的上邊為75分位數,下邊為25分位數,而中線是中位數。


箱線圖——四分位數直觀體現

通過這樣展示數據,就能夠將數據的范圍和集中情況提現得特別明顯。不同對象,也可以利用在一個指標上的箱線圖進行對比。圖中就是幾個類別在一個變量上的對比,可見B類別的數據相比AC更加集中。

類似箱線圖的思想,K線圖有通過四個數字來體現出分布和趨勢,K線圖中有四個數字,箱體上有收盤價格和開盤價格,箱體兩側還有周期上最高和最低數據,當收盤高于開盤時,顯示為紅色,當收盤低于開盤時,顯示為綠色。

K線圖——四分位數變體

因此與箱線圖相比,K線圖還體現了變化情況。隨著時間變化,多個K線圖放在一起時,能夠呈現出這一段時間以來的價格波動情況。K線圖在金融領域常用,圍繞7K線圖的各種變化也有專門的書籍和文章進行討論。

百分位數——看待極端

從均值、中位數再到四分位數,已經基本能夠發現對象分布的情況,當然這是一種比較粗略的情況。在對象的數據中,有時還存在一些極端的情況,這些值與中位數和均值有相當大的距離,因此在這種情況下,如何看待這些數據,如何認定這些數據的離散程度,就需要進一步地來探求數據的分布。百分位數就是分析更細節信息的統計量。

百分位圖:更細膩地看分布

四分數是在25%,50%和75%這幾個點上將一組數據劃分為四個區間,當數據的區間從25%劃分到10%時,能夠從數據中得到更細節的信息。10分位數數,就是以10%的區間相隔,第一個10分位數與最后一個十分位數構成的區間,即[10%,90%]區間,就代表了80%的數據集中的范圍,大于上邊界和小于下邊界的數據已經是不再被作為主流被考慮。

當分位點進一步減少到5%的區間時,就有95分位和5分位這兩個點,在統計學中,5%通常被考慮為小概率事件,因此大于95分位數或小于5分位數都可以視為基本不會發生的情況。

百分位圖:忽略極端

百分位數的其中一個作用就是用于忽略極端,對于大于95分位和小于5分位的數,都可以作為極端被忽略掉,重點分析[5%,95%]區間上的數據。

百分位圖:重視極端

此外,百分位數還能夠起到重點考察極端的情況,在質量控制的六西格瑪體系中,就有[0.25%,99.75%]區間作為質量正常的區間范圍,其中99.75%作為質量上限,0.25%作為質量下限,當高于質量上限或低于質量下限的情況發生時,都可以被認為是出現了異常情況,需要重點分析原因。

百分位的變體--累計帕累托

百分位的另外一個典型應用是累計帕累托思想,即80-20法則。這是由意大利統計學家帕累托發現的社會上20%的人占有80%的社會財富現象總結得來,在一組對象中少量的對象具有較大的數值,而這些數值之和就占據了所有數值之和的絕大部分。

往往少量的對象數量上的占比在20%,而數值上的占比為80%。80-20法則在日常的生產生活中常常能夠體現出對象在數據上的集中程度,如80%的收入由20%的客戶提供,20%的強勢品牌占據80%的份額,80%的應收賬款集中于20%的客戶等等情況。

80-20法則

80-20法則在實施上是根據指標數值大小將對象從小到大排列,接著計算每個對象的數值在對應總數值中的占比,然后依次將占比累加起來。下面的條形圖和折線圖組成的復合圖表就是體現了各個客戶在銷售額貢獻程度,其中柱子表示銷售額,而折線表示銷售額的累計百分比。

從圖中可以發現,在10個客戶前面的4個客戶就占據了90%的銷售額。

前面的4個客戶就占據了90%的銷售額

此外,80-20法則,還有應用于庫存管理中,從ABC物料庫存管理的圖中可以發現,A類物料不到所有物料中的20%,卻占據了近乎80%的資金。

ABC庫存管理

因此需要進行重點管理,而B類和C類的資金占用情況依次下降,因此對管理的要求也依次下降。

從統計到分布

前面從均值到中位數,從四分位數到百分位數,這些統計量聯合起來其實都是在描述一組數據的分布情況,當通過統計量知曉大致的分布以后,就能夠知道數據的趨勢是什么樣子,哪些值屬于罕見值,哪些值又是屬于常見值,對象數據大致的集中程度如何,主要介于哪些數值之間等等。

一組數據可能呈現出多種分布的情況,在這些分布中,常見的是正態分布和冪率分布。

正態分布是值中位數與平均值是同一個值,各種數值兩端的分布情況一致,也就是說越接近平均值的數值越多,而越遠離平均值的數值越少。

正態分布

在一張橫軸表示數值大小,縱軸表示該值的概率的圖形中,正態分布式呈現出一個鐘型的樣子。數據分析中,正態分布常常用來審視遠離中位數的異常數值。聚焦于對象整體的時候,通常考慮剔除異常值,即忽略掉圖中的兩端。聚焦于異常值本身的時候,通常重視異常值,在六西格瑪管理中常常關注在兩端出現的異常值發生情況。

而冪率分布正好同正態分布分布相異,冪率分布中的數據分布不均,其中有少量的極大值和大量的小值。

冪率分布

對于冪率分布的曲線就是縱軸表示數值的大小,橫軸表示數值的數量。從冪率分布的圖像可以發現,冪率分布有著高聳的頭部,同時也帶著一條長長的尾巴。數據分布中,冪率分布用來審視大值和小值,當關注大值的時候,其實就是找出重點關注的對象,如前文說道的80-20原則。當關注小值的時候,其實就是體現出了長尾效應,商業上的一個例子就是市場上的一些小眾產品,其實加起來的需求比主流產品還要大。

統計思維總結

統計思維是數據分析思維的第二種思維,借助統計思維,能夠快速知道一組數據呈現的形式和分布。

當我們看到一組數據時,可以通過查看相關統計量的形式,來了解這組數據的概要,從局部到整體,以點帶面地看這組數據的大小,分布以及其他特征。通常的統計量包括了,平均值,最大最小值,中位數、百分位數等等。通常查看數據大致大小可以用平均值。查看大致分布可以用中位數,即一半的數據比這個值大,另外一半的比這個值小。查看離散程度可以用四分位,在中位數的基礎上可以知道有多個單位大于其他25%的和大于其他75%的,當然百分位就可以更細了。此外還以將統計量交叉對比,當平均數遇見中位數時,就能夠知道離散程度有多大。我有1萬,你有1萬,馬云有500億,我們三人平均值250億,當然中位數還是1億,就是一個典型的例子。

統計思維總結

統計分析的第一點是依靠統計量一點帶面,而第二點就是根據分布預測規律。

當我們知道一組數據的分布后,就能知道一些值的出現應該如何看待,當出現特別大的或者特別小的值時,是屬于普遍現象還是稀有現象。例如一群成年人的身高通常是正態分布,一個人一米四,另外一個人一米九都是數據特別稀有的。公交車到達的時間通常是冪率分布,即短時間就到的情況很多,長時間到的情況少,當等車太長時,就可以考慮是不是路上出什么事情了,要不要換車。

分布預測規律同時也能用于生產和生活中,如客戶貢獻的分布就是冪率分布,少量的客戶帶來極大的貢獻,大量的客戶帶來小而雜的貢獻,有的廠商選擇去滿足大客戶,也有的廠商去滿足小而雜的貢獻客戶,這就是利用了冪率分布曲線的長尾效益。

原文轉發,功德無量!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容