機器學習概率統計知識(1): 無偏估計與有偏估計

引言

在機器學習中經常會接觸到無偏估計和有偏估計這兩類概念,本文匯總了多篇博客是講解內容,旨在深入透徹地理解這兩個概念

  • 有問題歡迎在交流區探討學習,QQ:761322725
  • 碼字不易,好心人隨手點個贊??

有偏估計(biased estimate)是指由\color{red}{樣本值求得的估計值}\color{blue}{待估參數的真值}之間有系統誤差,其期望值不是待估參數的真值。
在統計學中,估計量的偏差(或偏差函數)是此估計量的期望值與估計參數的真值之差。偏差為零的估計量或決策規則稱為無偏的。否則該估計量是有偏的。在統計學中,“偏差”是一個函數的客觀陳述。

一句話概括就是,有偏估計是在樣本估計值和真值間存在誤差的估計\color{red}{\mathbb{E}(\hat{\theta} )\neq \theta }

\color{red}{D_{有偏}(X)=\sigma ^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}
\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i
我們在日常統計中常用的樣本方差即是有偏估計量

無偏估計是樣本統計量來估計總體參數時的一種無偏推斷。估計量的數學期望等于被估計參數的真實值,則稱此此估計量為被估計參數的無偏估計,即具有無偏性,是一種用于評價估計量優良性的準則。
無偏估計的意義是:\color{red}{在多次重復下,它們的平均數接近所估計的參數真值。}
無偏估計常被應用于測驗分數統計中。

\color{red}{D_{無偏}(X)=\sigma ^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}

假如,我們可以采樣無窮無盡的樣本,那么理論上下面的估計就是精確的,
\begin{equation}\begin{aligned}\sigma^2 =&\, \mathbb{E}\left[(x - \mu)^2\right]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\\ \mu =&\, \mathbb{E}[x]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n x_i\end{aligned}\end{equation}
這也可以理解為,當樣本數趨于無窮時,有偏估計和無偏估計等價

分析討論

為什么分母項變成n-1就成了無偏估計呢?

下面我們來證明其是無偏估計和有偏估計!

證明關鍵在于說明,計算樣本估計量的期望值,將該期望值與參數真值進行比較,即計算/證明\mathbb{E}(\hat{\theta} )\neq \theta。 與上面所提到的樣本無窮的假設相較,我們的實際計算中是只能采樣一批數據進行計算,

n是一個固定的數字,比如我們隨機梯度下降時,用一個batch的樣本的平均梯度,來作為整體樣本的梯度估計。另一方面,我們也不是估計一次就完事了,
我們可能會估計很多次,即首先采樣n個樣本,算一次得到μ_1σ^2_{有偏1};
再隨機采樣n個樣本算一次得到μ_2σ^2_{有偏_2},依此類推得到(μ_3,σ^2_{有偏_3}),(μ_4,σ^2_{有偏_4}),…,我們想知道的是:
\begin{equation}\begin{aligned}\mu &\xlongequal{?}\mathbb{E}\left[\hat{\mu}\right] = \lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\mu}_{i}\\ \sigma^2 &\xlongequal{?}\mathbb{E}\left[\hat{\sigma}^2_{\text{有偏}}\right]=\lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\sigma}^2_{\text{有偏},i} \end{aligned}\end{equation}
蘇劍林. (2019, Jun 19). 《簡述無偏估計和有偏估計 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

\color{red}{即對各次抽樣的估計量計算平均,取期望值}

也就是說,“有限平均”的“無限平均”,是否等于我們最終要求的平均?

這里我們取用n=2,每次只取兩個樣本,來以實際例子的討論無偏估計和有偏估計。

  • 首先看樣本均值的估計量\hat{\mu},定義樣本均值真實值為\mu,兩個樣本的情況下:
    \hat{\mu} = \frac{x_1+x_2}{2}
    \mathbb{E}(\hat{\mu})=\mathbb{E}({ \frac{x_1+x_2}{2}})= \frac{1}{2}\mathbb{E}(x_1)+\frac{1}{2}\mathbb{E}(x_2)=\frac{\mu}{2}+\frac{\mu}{2}=\color{red}{\mu}
    可見我們常用樣本均值的估計量\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i\color{red}{無偏估計}注:此處非標準嚴格的證明,僅為討論解釋
  • 再看樣本方差的估計量\hat{\sigma}^2
    \hat{\sigma}^2 = \frac{1}{2}((x_1-\frac{x_1+x_2}{2})^2+(x_2-\frac{x_1+x_2}{2})^2)
    \mathbb{E}(\hat{\sigma}^2)= \frac{1}{4}\mathbb{E}(x_1^2+x_2^2-x_1x_2)=\color{red}{\frac{1}{4}({\mathbb{E}}_x(2x^2)-{\mathbb{E}}_{x_1}(x_1){\mathbb{E}}_{x_2}(x_2))}
    =\color{red}{\frac{1}{2}(\mathbb{E}(x^2)-\mu^2)}
    而準確的方差表達式為\color{red}{\mathbb{E}(x^2)-\mu^2},對上式乘\frac{n}{n-1}即2,就可以得到準確方差。說明了其為有偏估計。

直觀來看,用有限樣本的上式來估計方差,由于樣本少了,波動也會變小,所以方差估計也會偏小,這就是所謂的有偏
極端情況下,如果只采樣一個樣本進行估計呢?估計出來的方差就是0了,不管怎么重復實驗,結果還是0,我們總不能說整批樣本的方差一定就是0吧?這便是有偏估計的最簡單例子。
并不是所有的有偏估計都可以像方差一樣,簡單將n換成n?1就變為無偏估計了。一般情形下,我們想要估計的量,連估計本身都很難,更不要說有偏還是無偏了,所以要對一般的估計量消除偏差,都得具體問題具體分析了

推導證明

我們來嘗試證明
\mathbb{E}(\hat{\sigma}^2)=\sigma^2
\mathbb{E}(\hat{\sigma}^2)=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2)
=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2+\hat{\mu}^2-2x_i\hat{\mu}))
=\frac{1}{n-1}\mathbb{E}(\sum_{i=1}^{n}(x_i^2)-n\hat{\mu}^2)
=\frac{1}{n-1}(\sum_{i=1}^{n}\mathbb{E}(x_i^2)-n\mathbb{E}(\hat{\mu}^2))
\color{red}{D(x)=E(x^2)-E(x)^2}
代入上式可得:
=\frac{1}{n-1}(\sum_{i=1}^{n}(D(x_i)+E(x_i)^2)-n\mathbb{E}(\hat{\mu}^2))
=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(D(\hat{\mu})+E(\hat{\mu})^2))
\color{blue}{D(\hat{\mu})=D(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}D(x_i)}//總樣本方差與抽樣方差相等
=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(\frac{1}{n}\sigma^2+\mu^2))
\color{red}{=\sigma^2}

通過上式也直接證明了n-1式的無偏估計特性

在各類科學計算工具包中,對這兩種估計都有不同的實現,使用時應該根據需要選擇區分。

參考資料

https://blog.csdn.net/cx1165597739/article/details/93330524
https://blog.csdn.net/weixin_31866177/article/details/89003517
蘇劍林. (2019, Jun 19). 《簡述無偏估計和有偏估計 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容