統計學里面,正態分布(normal distribution)最常見。男女身高、壽命、血壓、考試成績、測量誤差等等,都屬于正態分布。
以前,我認為中間狀態是事物的常態,過高和過低都屬于少數,這導致了正態分布的普遍性。最近,讀到了 John D. Cook [1] 的文章,才知道我的這種想法是錯的。
正態分布為什么常見?真正原因是中心極限定理(central limit theorem)。
"多個獨立統計量的和的平均值,符合正態分布。"
上圖中,隨著統計量個數的增加,它們和的平均值越來越符合正態分布。
根據中心極限定理,如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結果的平均值就是正態分布。
舉例來說,人的身高既有先天因素(基因),也有后天因素(營養)。每一種因素對身高的影響都是一個統計量,不管這些統計量本身是什么分布,它們和的平均值符合正態分布。(注意:男性身高和女性身高都是正態分布,但男女混合人群的身高不是正態分布。)
許多事物都受到多種因素的影響,這導致了正態分布的常見。
讀到這里,讀者可能馬上就會提出一個問題:正態分布是對稱的(高個子與矮個子的比例相同),但是很多真實世界的分布是不對稱的。
比如,財富的分布就是不對稱的,富人的有錢程度(可能比平均值高出上萬倍),遠遠超出窮人的貧窮程度(平均值的十分之一就是赤貧了),即財富分布曲線有右側的長尾。相比來說,身高的差異就小得多,最高和最矮的人與平均身高的差距,都在30%多。
這是為什么呢,財富明明也受到多種因素的影響,怎么就不是正態分布呢?
原來,正態分布只適合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強影響,那么就不是正態分布了。一個人是否能夠掙大錢,由多種因素決定:
家庭
教育
運氣
工作
...
這些因素都不是獨立的,會彼此加強。如果出生在上層家庭,那么你就有更大的機會接受良好的教育、找到高薪的工作、遇見好機會,反之亦然。也就是說,這不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。
統計學家發現,如果各種因素對結果的影響不是相加,而是相乘,那么最終結果不是正態分布,而是對數正態分布(log normal distribution),即 x 的對數值log(x)滿足正態分布。
這就是說,財富的對數值滿足正態分布。如果平均財富是10,000元,那么1000元~10,000元之間的窮人(比平均值低一個數量級,寬度為9000)與10,000元~100,000元之間的富人(比平均值高一個數量級,寬度為90,000)人數一樣多。因此,財富曲線左側的范圍比較窄,右側出現長尾。
參考鏈接
[1] Why isn't everything normally distributed?, John D. Cook
https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/
[2] Achievement is not normal, by John D. Cook
https://www.johndcook.com/blog/2009/09/29/achievement-is-log-normal/
作者:7125messi
鏈接:http://www.lxweimin.com/p/22181040d5f4
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權并注明出處。