抽樣 Sampling 及抽樣分布

隨機抽樣

我們之所以對于抽樣感興趣,不是為了尋求各種各樣奇異的考試題,而是在真實的環境中,我們需要通過抽樣得到的統計數據來對總體的某些方面的特征做一個估計或者推理。例如,采用樣本均值對總體的均值進行一個估計,采用樣本方差對總體的方差進行一個估計,或采用樣本中具有某個特征的元素的比例對總體中具有這個特征的元素的比例做一個估計。我們知道這種估計或推理不可能是完全準確的,如何評估這個估計的準確性正是抽樣分布研究的內容之一。

上文這種點對點的估計方式稱為點估計 Point estimation,被選定的樣本統計特征稱為點估計量 Point estimator,相應的樣本統計值稱為總體特征的點估計值 Point estimate。為了便于定量的統計研究,我們將總體的特征以數值形式表示并將其稱為參數。

包含有限個元素的總體的抽樣方法

當我們從一個數量為 N 的包含有限個元素的總體中進行抽樣的時候,最簡單的抽樣方法就是隨機逐個抽取或一次性抽取其中的 n 個元素構成一個樣本集,抽取時需要滿足總體中任意包含 n 個元素的樣本集都有相同的概率被抽到,這種抽樣方法稱為簡單隨機抽樣。簡單隨機抽樣中,如果被抽出的元素可以被放回,即每一個元素被抽到的概率都是 1/N,這種抽樣方式稱為有放回抽樣 Sampling with replacement,反之對于抽出的樣本不再放回的抽樣方式稱為無放回抽樣 Sampling without replacement,這里我們默認采用的是無放回的方式。

包含無限個元素的總體的抽樣方法

很多情況下被研究的總體是一個非常大的數值,或者可能是一個持續增加的過程,那么此時可以認為這個總體包含無限多個元素。對于此類總體的隨機抽樣需要滿足:

  • 每一個被抽樣的元素來自于同一個總體

  • 每一個被抽樣的元素都是獨立抽取的

這兩個看似簡單的要求在實際應用中是極其容易被敷衍的,也是很多統計數據不可信的原因,需要針對實際應用加以甄別。例如:

  • 如果考察的對象是一個灌裝生產線的容積滿足問題,那么需要注意的是這些樣本就需要在生產的同一時間/批次中進行抽取

  • 如果考察的對象是一個餐廳里的顧客的滿意程度,那么顧客選擇的側重點則是要滿足第二條,即選擇的獨立性。例如不應該讓調查者根據自己的喜好來隨意挑選顧客,而是需要設計其他的隨機元素來輔助:麥當勞對這個類似活動的選擇方式是每一次有顧客出示優惠券,那么排在他下一位的顧客即可作為被抽樣的對象

抽樣分布

從一個大的總體中隨機抽取 n 個元素構成一個樣本集時,如果采用一次性抽取的方式,則樣本集的構成有 N! / [n!(N-n)!] 個,因此我們完全可以相信不同的樣本集中獲取的點估計量的點估計值是完全可以不同的,也即不同的抽樣得到的點估計值與總體參數之間存在誤差,這個誤差被稱為采樣誤差 sampling error。我們想要了解這些點估計量的值的分布情況的目的就是為了確保我們在使用這些點估計值進行總體估計的時候能夠清楚的知道誤差的范圍到底有多大,該如何去調整抽樣的大小或采取相應的校正以使得其可以更加準確的近似總體的參數。

Values of the same parameter can differ among different samples

實際上前面提到的這些抽樣得到的統計量都可以被看作是隨機變量,因此可以通過前述的頻數統計、可視化、最大值、最小值、百分位值、期望和方差等描述統計學工具來研究其分布形態。這些來自于同一總體的包含同樣數量元素的多次抽樣得到的統計值的分布形態稱為抽樣分布。如果我們按照之前的方法,如頻數統計并通過直方圖可視化的統計這些統計值,會發現這些來自不同樣本集的統計值在整體上近似呈正態分布。

Relative frequency histogram of means generated from 500 different samples of the same size

這里需要注意的是,我們在研究這些抽樣分布時并未窮盡總體中所有可能的樣本集,而是所有可能的樣本集的一個子集,也即樣本集的樣本集來進行研究,這一點充分體現了統計學的研究邏輯。

x? 的抽樣分布

x? 的抽樣分布是對通過抽樣得到的所有可能的多個樣本集的各自的 x? 的分布狀態的研究,再一次地,由于 x? 是一個隨機變量,因此可以同任意隨機變量一樣計算其期望、方差。在這里有:

  • E(x?) = μ,即簡單隨機抽樣的多個樣本集的均值的期望值/均值等于總體的均值,具有這種屬性的點估計量稱為無偏差估計量 Unbiased estimator

  • 如果我們沿用之前的約定,用 N 表示總體中包含的元素的數量,n 表示樣本集中包含的元素的數量,σ 表示總體的標準差,σx? 表示抽樣得到的多個樣本集的均值的標準差,則有:

    • 對于含有有限個元素的總體:σx? = (N - n)1/2σ / n1/2 / (N - 1)1/2

    • 對于含有無限個元素的總體:σx? = σ / n1/2

Standard deviation of sample mean

其中 (N - n)1/2 / (N - 1)1/2 稱為包含有限個元素的總體的校正系數 Finite population correction factor,但在大部分的應用中,由于總體的元素數量都遠大于抽樣樣本中所包含的元素的數量,此時這個系數近似等于 1,因此在 n / N ≤ 0.05 的含有有限個元素的總體和含有無限個元素的總體中都可以采用 σx? = σ / n1/2 來計算抽樣得到的樣本集的均值的方差。

在后續學習及推理統計學中為了便于區分總體參數的標準差和對應的點估計量的標準差,我們將點估計量的標準差命名為標準誤差 Standard error,當這個點估計量是 x? 時,σx? 就是 x? 的標準誤差。

上文中 x? 的直方圖近似呈正態分布不是一個偶然:

  • 當總體服從正態分布時,無論抽樣樣本集所包含的元素的數量是多少,樣本均值 x? 的抽樣分布都服從正態分布

  • 當總體不服從正態分布時,中心極限定理告訴我們當 n 足夠大時,抽樣樣本集的均值 x? 的抽樣分布依然服從正態分布

Illustration of central limit theorem

由上圖可以看出隨著樣本量的增加,均值的抽樣分布逐漸逼近正態分布。在實際應用中,一般當抽樣樣本量大于 30 時就可以認為樣本均值服從正態分布,當數據極度偏斜時,可以將樣本量擴大到 50。x? 的抽樣分布的重要意義在于其描述了來自不同樣本集的 x? 圍繞總體均值 μ 的分布情況,也提供了任意一個 x? 的取值與總體均值 μ 的差異情況。

在了解了均值的抽樣分布的基礎上,我們就可以知道任意一個抽樣得到的均值有多大的概率可以在誤差允許范圍內近似總體的均值。因為抽樣均值服從均值為總體均值 μ,標準誤差為總體均方差 σ 除以樣本集中包含的樣本數量的平方根 n1/2 的正態分布,因此我們想要了解抽樣均值落在總體均值某個誤差范圍內的概率就可以借助標準正態分布進行計算。假設我們設定可以接受的圍繞總體均值的誤差范圍設置為 (xlower,xupper),則有:zlower = (xlower - μ) n1/2 / σ, zupper = (xupper - μ) n1/2 / σ,對于任意一個抽樣樣本集得到的 x?,其落在這個誤差范圍內的概率為 P(zupper) - P(zlower) 。

從這個計算也可以看出,抽樣誤差的大小受到樣本集中包含的樣本數量的影響,并且隨著樣本數量的增加,抽樣的均值的標準誤差將變小,也即抽樣均值的分布的離散程度變小,這也意味著從更大的抽樣中得到的均值有更大的概率落在總體均值的某個誤差范圍內。

Sample size makes difference in determing the standard error of sample mean

p? 的抽樣分布

p? 為抽樣樣本集中具有某個特征的元素所占的比例,即 p? = x / n ,x 表示抽樣樣本集中具有某個特征的元素的數量,n 表示樣本集中包含的元素的數量,其抽樣分布的研究過程與 x? 類似,比較大的區別是樣本集中的樣本是否具有某個特征是一個二項分布,并且有:

  • E(p?) = p,這里 p 表示具有某個特征的元素在總體中所占的比例,這個結果意味著多個抽樣樣本集中具有某個特征的元素所占的比例的期望值與總體中具有這個特征的元素所占的比例相等,即 p? 是 p 的一個無偏差 unbiased 的點估計量

  • 沿用之前的約定,用 N 表示總體中所包含的元素的數量,σp? 表示多個抽樣樣本集中具有某個特征的元素所占的比例的標準差,則有:

    • 對于含有有限個元素的總體:σp? = (N - n)1/2(p(1 - p))1/2 / [n1/2(N - 1)1/2]

    • 對于含有無限個元素的總體:σp? = (p(1 - p))1/2 / n1/2

Standard deviation of sample proportion

同樣地,在 n / N ≤ 0.05 的含有有限個元素的總體和含有無限個元素的總體中都可以采用 σp? = (p(1 - p))1/2 / n1/2 來計算多個樣本集中得到的具有某個特征的樣本的比例的標準誤差。

由于 p? 服從二項分布,而前面針對二項分布的討論中提到,當 np ≥ 5 且 n(1 - p) ≥ 5 時,可以用正態分布來近似計算二項分布,即當抽樣樣本集包含的樣本數量及具有某個特征的元素的比例滿足上述條件時,多個抽樣樣本集中具有某個特征的元素的比例近似地服從均值為 p,方差為 σp? 的正態分布。至此,如果想了解抽樣得到的比例有多大的可能性落在總體比例的某個誤差范圍內,則轉化為一個正態分布的計算。

點估計量 Point estimators 的屬性

從前面我們看到,在選擇是否采用樣本的某個統計值做為點估計量來近似總體的相關參數時,我們希望了解這個樣本統計值對于總體的近似程度和分布情況。在這里我們針對三個方面對點估計量的屬性進行研究:無偏性 unbiased,有效性 efficiency,一致性 consistency。

為了方便表述,我們將總體的參數用 y 表示,抽樣得到的統計值用 ? 來表示。

無偏性

如果抽樣的到的統計值的均值/期望滿足 E(?) = y,那么就稱 ? 是 y 的一個無偏估計量。

Unbiased and biased estimator

對于某些估計量來說,由于抽樣得到的統計值的期望會大于或小于總體的參數,如果直接用他們做為總體的估計就會高估或低估總體的值,這時就需要對樣本的統計值做一定的校正。例如在樣本的標準誤差計算時,我們在分母選擇用 n - 1 代替 n 就是為了使得 E(s) = σ,即使得樣本的標準誤差成為總體標準差的一個無偏估計量。

有效性

如果同一個抽樣樣本集中可以得到兩個無偏統計值來對總體的同一個參數進行估計,那么我們理所應當會選擇二者中均方差更小的那個,我們稱這個相對較小均方差的估計量相比另一個估計量具有更高的有效性。例如如果從服從正態分布的總體中抽取樣本,那么通過計算可以發現樣本均值的方差小于樣本中值的方差,因此我們會選擇樣本均值作為總體均值的更加有效的估計量。

Efficiency would determin which unbiased estimators will be chose

一致性

如果隨著樣本量的增加,樣本統計值總是傾向于對總體的參數的估計更加準確,這就是估計量的一致性。例如 σx? 和 σp? 隨著 n 的增加會減小就反映了 x? 和 p? 是兩個一致性很好的估計量。

免責聲明

我寫這個筆記是為了系統的復習概率論中的一些概念,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版,這是一本非常經典的參考書,毫無保留的滿分推薦。盡管書名暗示了是在商業和經濟學中的統計學,但根本的統計學知識是不變量,并且和很多優秀的原版書一樣,作者時刻注意用實例來講解統計學概念,基本上每一個新的概念的定義都建立在日常生活的實例的基礎上,在此基礎上還保留了精美的排版和精心設計的插圖,十分便于理解。

筆記最重要的一個目的就是記錄者復習的重要資料,如果能對別人也有所幫助那就是額外的獎賞了,所以為了復習方便我擅自截取了書中的很多插圖,這些插圖僅限于個人學習使用。其他人請勿直接轉載,如轉載請刪除插圖并附帶這則免責聲明,否則由此而產生的版權問題,請轉載者自行承擔。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容