有時候無法給出足夠正確的結果。我們使用的是樣本,沒有使用整個總體,只是得到最佳的點估計量,存在著小心的誤差。不使用精確值作為總體均值的估計值,但是我們可以指出某個區間來估計。
一、置信區間簡介
置信區間展現的是,這個總體參數的真實值有一定概率落在與該測量結果有關的某對應區間。置信區間給出的是,聲稱總體參數的真實值在測量值的區間所具有的可信程度,這個概率被稱為置信水平。置信水平越高,所對應的置信區間就會越大。
讓均值的點估計計量處于這個區間的中央,并且在整個區間的上下限設定為這個點估計量加上或者減去某個誤差。
由于a和b的確切數值取決于希望自己對于該區間包含總體均值,這一結果具有可信程度,所以[a,b]稱為置信區間(誤差范圍)。置信區間又稱估計區間,是用來估計參數的取值范圍的。
求解置信區間主要步驟
第1步:選擇總體統計量(要解決的實際問題)
第2步:求出統計量的抽樣分布(樣本的平均值和標準誤差)
第3步:求出置信區間
第4步:求出置信區間的上下限的值
二、大樣本求解置信區間
當大樣本大小大于30, 抽樣分布符合中心極限定理描述的正態分布
第1步:選擇總體統計量(要解決的實際問題)
例如人口普通:調查全國男性平均身高,不可能把每個人的數據統計到,只能通過樣本的數據來統計估計總體的數據。
第2步:求出統計量的抽樣分布(樣本的平均值和標準誤差)
當樣本數據大小大于30時,是符合中心極限定理,即符合正態分布。
假設我們抽樣的樣本大小是100人,樣本平均值是167.1cm,樣本的標準差是0.2cm。
求得標準誤差是0.02cm
第3步:求出置信區間
確定置信區間水平 常用的置信水平是95%
第4步:求出置信區間的上下限的值
a=總體平均值- 幾個標準誤差
?=總體平均值–z*標準誤差
由于符合正態分布,所以我們可以使用正態分布求置信區間
算出標準分,查詢標準正態分布概率表,求得需要的結果。
查z表求得標準分z=-1.96
下面可以求得a和b
a=樣本平均值- 幾個標準誤差
?=樣本平均值–1.96*標準誤差
=167.1-1.96*0.02
=167.0608
b =樣本平均值+ z*個標準誤差
? =167.1+1.96*0.02
? =167.1392
在置信水平95%,得到置信區間為[167.0608, 167.1392]
其中z的數值取決于所需要的置信水平,只要以正態分布作為試驗基礎,就可以使用這些數值來計算。
三、樣本大小小于30的置信區間
當樣本很小時(樣本大小小于30),抽樣分布符合t分布
T分布介紹
當樣本很小時候,曲線較為扁平,有兩條粗粗的尾巴,只有一個參數v,v=n-1, n為樣本的大學,v稱為自由度
自由度是指在不影響給定限制條件的情況下,可以自由變換信息的數量。 可以將自由度看做估算其他信息時可有的獨立信息數量。
符合t分布的置信區間的求解過程:
1.選擇總體統計量(確定要求解的問題)
例如想知道某新藥物A的對神經的反應時間
2.求樣本的平均值和標準誤差
其中抽樣大小為10,注射藥物A平均反應時間為1.05秒,樣本標準差為0.5秒
計算標準誤差為0.158
求得自由度為v=10-1=9
3.查找t表格求著t的值
求得t的值為2.262
4.求置信區間的上下限的值
下面可以分布求得a和b
a=樣本平均值–t*標準誤差
=1.05-2.262*0.158
=0.692
b =樣本平均值+ t*個標準誤差
? =1.05+2.262*0.158
? =1.407
在置信水平95%,得到置信區間為[0.692, 1.407]
當大樣本大小大于30, 抽樣分布符合中心極限定理描述的正態分布
當樣本很小時(樣本大小小于30),抽樣分布符合t分布