作者:阮一峰
日期:2013年1月 8日
去年12月,美國康涅狄格州發生校園槍擊案,造成28人死亡。
資料顯示,1982年至2012年,美國共發生62起(大規模)槍擊案。其中,2012年發生了7起,是次數最多的一年。
去年有這么多槍擊案,這是巧合,還是表明美國治安惡化了?
前幾天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判斷同一年發生7起槍擊案是否巧合。
讓我們先通過一個例子,了解什么是"泊松分布"。
已知某家小雜貨店,平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?
假定不存在季節因素,可以近似認為,這個問題滿足以下三個條件:
(1)顧客購買水果罐頭是小概率事件。
(2)購買水果罐頭的顧客是獨立的,不會互相影響。
(3)顧客購買水果罐頭的概率是穩定的。
在統計學上,只要某類事件滿足上面三個條件,它就服從"泊松分布"。
泊松分布的公式如下:
各個參數的含義:
P:每周銷售k個罐頭的概率。
X:水果罐頭的銷售變量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐頭的平均銷售量,是一個常數,本題為2。
根據公式,計算得到每周銷量的分布:
從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發生一次);如果存貨5個罐頭,98%的概率不會缺貨(平均59周發生一次)。
現在,我們再回過頭,來看美國槍擊案。
假定它們滿足"泊松分布"的三個條件:
(1)槍擊案是小概率事件。
(2)槍擊案是獨立的,不會互相影響。
(3)槍擊案的發生概率是穩定的。
顯然,第三個條件是關鍵。如果成立,就說明美國的治安沒有惡化;如果不成立,就說明槍擊案的發生概率不穩定,正在提高,美國治安惡化。
根據資料,1982--2012年槍擊案的分布情況如下:
計算得到,平均每年發生2起槍擊案,所以 λ = 2 。
上圖中,藍色的條形柱是實際的觀察值,紅色的虛線是理論的預期值。可以看到,觀察值與期望值還是相當接近的。
我們用"卡方檢驗"(chi-square test),檢驗觀察值與期望值之間是否存在顯著差異。
卡方統計量 = Σ [ ( 觀察值 - 期望值 ) ^ 2 / 期望值 ]
計算得到,卡方統計量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布臨界值為12.017。因此,卡方統計量小于臨界值,這表明槍擊案的觀察值與期望值之間沒有顯著差異。所以,可以接受"發生槍擊案的概率是穩定的"假設,也就是說,從統計學上無法得到美國治安正在惡化的結論。
但是,也必須看到,卡方統計量9.82離臨界值很接近,p-value只有0.18。也就是說,對于"美國治安沒有惡化"的結論,我們只有82%的把握,還有18%的可能是我們錯了,美國治安實際上正在惡化。因此,這就需要看今后兩年中,是否還有大量槍擊案發生。如果確實發生了,泊松分布就不成立了。