今天學習到一個名詞,無偏估計。
如何理解“不論總體服從什么分布,樣本均值是總體均值的無偏估計量”這句話,什么是無偏估計呢?
均值的無偏估計
比如我們想知道一個群體的平均身高,但是沒有辦法把每個人都進行測量,只有抽樣一部分來估計整體的身高。
那么,可以用下面式子來進行平均值的無偏估計:
為什么說是無偏估計,因為不同采樣得到的平均值是圍繞整體均值(u)左右波動的,這種估算方法沒有系統上的偏差,而產生誤差的原因只有一個:隨機因素(也就是抽樣的區別造成的)。
方差的無偏估計
我們用下面的式子來進行方差的無偏估計:
或者是
這里會有幾個問題,為什么可以用S2來近似整體方差,如果用樣本均值的期望代替整體均值,為什么要用n-1代替n。
已知整體均值(u),采樣具有隨機性,我們多采樣幾次,S2會在整體方差的上下波動。
根據中心極限定理,S2的采樣均值會服從整體均值(u)=整體方差的正態分布,因此S2可以作為整體方差的無偏估計。
但是如果我們不知道整體均值,只能計算出不同采樣的樣本均值。當整體均值等于樣本均值時,下式最小:
只要整體均值偏離樣本均值,該值就會增大。
所以:
如果用下面式子來估計:
那么S2采樣均值會服從一個偏離整體方差的正態分布,傾向于低估,具體低估了
因此
而下式得到的就是方差的無偏估計
估計的有效性
另外估計值還有另外一個概念就是有效性,估計量越靠近目標,效果越“好”。這個“靠近”可以用方差來衡量。有效性和無偏性是不相關的兩個概念:
有時候不一定追求估計的無偏性,如果系統誤差在可接受的范圍內,有效性高也是不錯的選擇。