應用統計學與R語言實現學習筆記(五)——參數估計

Chapter 5 Estimation

本篇是第五章,內容是參數估計。

1.參數估計的一般問題

正如前面介紹的,統計學的兩大分支,分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——參數估計。當然一般叫統計推斷的會更多些,二者是一樣的。
統計推斷(Statistical Inference)——主要包括參數估計和假設檢驗,實質就是通過樣本的均值、標準差、方差等去估計總體的均值、標準差、方差或者判斷總體的分布形式和分布參數。

  • 參數估計:根據從總體中抽得的樣本所提供的信息,對總體分布中包含的未知參數作出數值上的估計。
    點估計:用樣本的某一函數值來估計總體分布中的未知參數;
    區間估計:按照一定的可靠度估計出參數的一個范圍,即確定一個區間,使這一個區間內包含參數真值的概率達到預先所要求的程度。
  • 假設檢驗:需要對總體的分布形式或分布參數事先作出某種假設,然后根據樣本觀測值,運用統計分析的方法來檢驗這一假設是否正確。

上一篇提到的,獲取樣本之后,我們需要去猜總體,參數估計就是猜總體的參數(分布中所含的未知參數;分布特征:均值、方差等;事件的概率等)或者參數空間(參數的可能取值范圍)。
假設檢驗是下一章內容,這里就不細述了。
首先明確兩個概念:估計量(estimator)與估計值(estimated value)。

  • 估計量: 用于估計總體參數的隨機變量,一般為樣本統計量(如樣本均值、 樣本比例、 樣本方差等; 例如:樣本均值就是總體均值μ 的一個估計量)。
  • 估計值: 估計參數時計算出來的統計量的具體值,如果樣本均值=80, 則80就是總體均值的估計值。

既然是估計量,就必須有評價估計量的標準。一般包括以下幾點:

  • 無偏性:估計量的數學期望等于被估計的總體參數,樣本的隨機性導致估計偏差, 偏差平均值為0, 無系統誤差(所以在這里又提出了漸進無偏估計:估計隨著樣本量的增加而逐漸趨近于真值。漸進無偏估計指系統偏差會隨著樣本量的增加而逐漸減小,趨于0,在大樣本時可近似當無偏估計使用)。
  • 有效性: 對同一總體參數的兩個無偏點估計量, 有更小標準差的估計量更有效。
  • 一致性: 隨著樣本容量的增大, 估計量的值越來越接近被估計的總體參數。

由于無偏性是最普遍的標準。這里再介紹部分無偏性的幾個要點:

* 樣本均值是總體期望的無偏估計。

  • 諸觀測值對樣本均值的偏差可正可負,其和恒為0(n個偏差中只有n-1個是獨立的)。
  • 自由度:獨立偏差個數。
  • 偏差平方和(樣本量相等情況下,偏差平方和的大小反映樣本散布的大小, 樣本量大,偏差平方和大趨近于平均偏差平方和,偏差平方和的期望小于方差,有偏估計,漸進無偏估計。

點估計(point estimate)

  • 用樣本估計量的某個取值直接作為總體參數的估計值(例如:用樣本均值直接作為總體均值的估計;用兩個樣本均值之差直接作為總體均值之差的估計)。
  • 無法給出估計值接近總體參數程度的信息(雖然在重復抽樣條件下,點估計的均值可望接近總體真值,但由于樣本是隨機的,抽出一個具體的樣本得到的估計值等同于總體真值的可能性很小,特別是在連續分布時,該概率幾乎為0,一個點估計量的可靠性是由它的抽樣標準誤差來衡量的,這表明一個具體的點估計值無法給出估計的可靠性的度量)。

2.區間估計 Confidence Intervals

正如前面提到的點估計可靠性較低,因此在點估計的基礎上又提出了區間估計(interval estimate),它能解決的問題包括:

  • 為解決參數估計的精確度和可靠性問題, 在點估計的基礎上給出總體參數估計的一個區間范圍(該區間一般由樣本統計量加減抽樣誤差而得到),使這一個區間內包含參數真值的概率大到預先所要求的程度。
  • 它不具體指出總體參數等于什么,但能指出總體的未知參數落入某一區間的概率有多大。

二者的區別在于:點估計是一個數,區間估計給出一個區間,提供更多關于變異性的信息。通俗的解釋,你女朋友買了件衣服,讓你猜價格,你猜中準確價格很難,但是你猜一個范圍還是準確度比較高的。

所以區間估計(interval estimate)的概念是——根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個概率度量。
由概率度量則引出了置信區間(Confidence Intervals)的概念。

置信區間實質上是由樣本統計量所構造的總體參數的估計區間。在某種程度上確信這個區間包含真正的總體參數(用一個具體的樣本所構造的區間是一個特定的區間,我們無法知道這個樣本所產生的區間是否包含總
體參數的真值,我們只能是希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個)。置信區間表明了區間估計的精確性, 區間越小越精確,區間越大越不精確。
置信水平——將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比例稱為置信水平(置信度)。置信水平表明了區間估計的可靠性, 表示為 (1 - α) (α是總體參數未在區間內的比例, 區間估計不可靠的概率為α, 如α=0.05, 表明結論犯錯誤的概率為0.05),常用的置信水平值有99%, 95%, 90%。
那么什么樣的置信區間是好的置信區間呢?也就是區間估計的評價標準是什么呢?一般包括如下兩點:

  • 置信度(置信系數)越大越好——概率越大越放心,但不能一味求大。
  • 隨機區間平均長度越短越好——估計精度越高。

但是在某些實際問題中,我們可能更關心置信上限或置信下限(合金鋼強度,越大越好(望大特性),平均強度下限是個重要指標,藥物毒性,越小越好(望小特性),平均毒性上限是個重要指標)。這就是單側置信限問題。
談完了這么多理論,接下來進入實踐,如何做一個總體參數的區間估計?
按照前一章,我們還是討論三個重要的總體參數:均值、比例、方差。也是先談一個總體參數的區間估計。
首先規定好符號對應統計量和參數。
總體均值——μ,總體比例——p,總體方差——σ2;
樣本均值——x-,樣本比例——p-,樣本方差——s2。
一個總體均值的置信區間估計方法總結起來就是:

  • 正態分布,且總體方差σ已知,用Z值;
  • 正態分布,且總體方差σ未知,用t值;
  • 非正態分布但是大樣本,無論總體方差σ是否已知,用Z值。

一個總體比例的置信區間估計方法如下:
假定條件np≥5, n(1-p)≥5, n≥30。

一個正態總體方差的置信區間估計方法如下:

接下來談談兩個總體參數的置信區間的估計方法。
估計的一般包括均值差、比例差、方差比,主要包括兩種抽樣方法——獨立樣本和配對樣本。
兩個正態總體均值之差的置信區間(獨立樣本):

兩個總體均值之差的區間估計(獨立大樣本)
兩個總體均值之差的估計:

兩個總體均值之差的區間估計(匹配樣本)

兩個總體比例之差區間的估計
假定條件——兩個總體服從二項分布,可以用正態分布來近似,兩個樣本是獨立的。

兩個正態總體方差比的置信區間
實際應用如兩種不同方法生產的產品性能的穩定性或兩種不同測量工具的精度,需要我們去比較兩個總體方差。

兩個正態總體方差比的估計

總的來說,參數估計的東西很多,根據具體研究情況,我們可以根據自己需求選擇不同的參數估計。當然據筆者所知,R語言在參數估計上,現成函數(指默認的基礎包)比較少,一般需要自編函數或者有額外的包。這里先給出一個樣例函數(14章中會涉及到一部分,這里不詳述)。

conf.int=function(x,sigma,alpha) {
    mean=mean(x)
    n=length(x)
    z=qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)
    c(mean-sigma*z/sqrt(n),mean+sigma*z/sqrt(n))
    }

3.樣本容量的確定

前一章我們提到統計學聞名于世的規定,樣本容量一般必須>30。但是這種規定,并不是萬能的。所以樣本容量的確定就成了一個問題。n過大費用高、時間長、人力多;n過小誤差增大。
事實上n的確定依賴于多大置信度(可靠性),什么樣的精度(多寬的區間)。
所以樣本容量的確定需要根據置信區間的性質來決定。
置信區間的性質——以正態總體小樣本容量為例。首先置信區間的寬度:

因此很容易發現影響區間寬度的因素包括了:

  • 樣本容量:大樣本容量——小區間。
  • 總體數據的離散程度:小方差——小區間。
  • 置信水平:高置信度——大t值——大區間。

邊際誤差(margin error)——置信區間上下限與點估計之間的距離。

給定邊際誤差E和置信水平1-α,可以找到所需要的樣本容量。

估計總體均值時樣本容量的確定(σ已知):

樣本容量n與總體方差σ、邊際誤差E、置信水平1-α之間的關系為:

  • 隨總體方差增大而增大。
  • 隨邊際誤差減小而增大。
  • 隨1-α增大而增大,隨α減小而增大。

σ未知,如有近期樣本可用,用其樣本標準差代替σ,用t分布分位數代替標準正態分布分位數,自由度為近期樣本容量-1。否則,可以用一個至少比σ大的數來替代σ,抽一個樣本,用s代替σ——Stein 兩步法。

估計總體比例時樣本容量的確定:
根據比例區間估計公式可得樣本容量n為

E的取值一般小于0.1,p 未知時, 可用之前樣本比率估計,或保守的取最大值0.5。

估計兩個總體均值之差時樣本容量的確定:

估計兩個總體比例之差時樣本容量的確定:
設n1和n2為來自兩個總體的樣本,并假定n1=n2。根據比例之差的區間估計公式可得兩個樣本的容量n為:

總的來說,樣本容量的確定也是根據具體需要以及顯著性水平計算得到的。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容