背景
阮一峰的博客講到了如何理解泊松分布:
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
本文根據其文繼續講講。
泊松分布的由來
泊松分布由二項分布演進而來。二項分布十分好理解,給你n次機會拋硬幣,硬幣正面向上的概率為p,問在這n次機會中有k次(k<=n)硬幣朝上的概率為多少?
在這n次拋硬幣中,硬幣朝上的次數的期望有多少?
如果現在我能根據n的大小來控制p,從而控制這個期望,即無論n為多大,硬幣朝上的次數的期望不變(恒為lambda):
那么當n趨于無窮的時候,P(K_heads)將趨于泊松分布,即:
推到過程見(Introduction To Probability p307:https://www.dropbox.com/s/mrss8wg5yvmf7kw/Introduction%20to%20Probability.pdf)
所以,實驗結果滿足泊松分布的實驗即為泊松過程。泊松過程把離散的伯努利過程變得連續化了:原來是拋n次硬幣,現在變成了無窮多次拋硬幣;原來某次拋硬幣得到正面的概率是p,而現在p無限接近于0(p=lambda/n),即:非常難拋出正面朝上的硬幣;但是n次實驗中硬幣朝上的次數的期望不變,即lambda恒定。在泊松過程中,我們把拋出硬幣正面這樣的事件叫做到達(Arrival)。把單位時間內到達的數量,叫做到達率(Arrival Rate)。
故,泊松過程需要滿足以下三個性質:
1. 在任意單位時間長度內,到達率是穩定的。對應于無窮次拋硬幣的例子,我們相當于把一個單位時間分割成了無窮次拋硬幣的實驗,每次實驗產生正面的概率都是一樣的(為lambda/n),而在這無窮個拋硬幣實驗之后(即一個單位時間之后)我們期望能拋出lambda個正面的硬幣。這個性質類比于在有限次拋硬幣(二次分布)的例子中保證了每次擲出硬幣為正面的概率都為p。
2. 未來的實驗結果與過去的實驗結果無關。對應于無窮次拋硬幣的例子,之前不管拋出了多少個正面和反面的硬幣,都不會影響之后硬幣出現的結果。
3. 在極小的一段時間內,有1次到達的概率非常小,沒有到達的概率非常大。對應于無窮次拋硬幣的例子,我們發現硬幣朝上的概率p=lambda/n趨向于0。
判斷一個過程是否為泊松過程
現在我們來講講阮一峰所舉的槍擊案的例子。這個例子給你了美國30年來每年的槍擊案發生數目,需要解決的問題是能否從每年發生槍擊案的數目判斷美國槍擊犯罪是否惡化。假設美國槍擊案犯罪沒有惡化,而是非常穩定,我們可以假設:槍擊案的發生為泊松過程,每年平均發生槍擊案的數目恒定(性質1),各個年份之間發生槍擊案的數目不互相影響(性質2),任一時刻發生槍擊案的概率很小(性質3),所以每年發生槍擊案的數目服從泊松分布。
如何證明我們的假設是對的呢?如果槍擊案的發生為泊松過程,我們可以從數據中算出到達率lambda(年平均發生槍擊案數目)為2。因為在我們的假設下每年發生槍擊案的數目服從泊松分布,那么一年內發生0起槍擊案的概率為
一年內發生1起槍擊案的概率為
依此類推,那么我們可以得到一張我們假設出的年槍擊案數目分布和實際槍擊案發生數目的對照表:
以及分布圖:
再由一些統計學的計算方法(非本文重點,細節參見阮一峰原文),計算出我們假設的值與實際觀測的值是否接近。如果接近,則說明我們的假設-槍擊案發生為泊松過程-是正確的。
The Random Incidence Paradox
我們先來看看一個經典的Paradox:
上面的例子告訴了我們,假設一個事件的平均到達時間為T,你作為觀察者多次介入該事件,并記錄連續兩個到達間隔的時間,你記錄得到的平均到達時間會比T更長。你現在是在抽樣“前后兩次到達的間隔時間”,你介入該事件并開始記錄是等概的,但你并不是等概地抽取不同到達間隔時間的樣本:你更加有可能碰到兩次到達間隔時間較長的情況,導致你最后的結果存在了BIAS。
那么現在也就更好理解下面的一個問題:
如果在一種BUS到達station為泊松過程,其到達率為lambda,即平均等待時間為1/lambda。你作為觀察者在任意時間進入station,并多次記錄前后到達時間的間隔(這里意為,你進入station時就可以立馬知道前一次到達的時間,然后開始等待直到下一次到達并記錄)。求問你記錄的平均到達間隔時間為多少?
答案肯定是大于1/lambda的。假設你到達的時刻為t*,前一到達時刻為U,后一將要到達時刻為L,那么U至t*可以看做一段泊松過程,t*到L也可以看做一段泊松過程,所以你記錄的平均到達間隔時間應該是兩個泊松過程相加后的平均等待時間。多個泊松過程相加得到的是愛爾蘭(Erlang)過程,期望為k/lambda。所以本題最后的答案是2/lambda。