許多paper里經(jīng)常能看到Mean±SD(SE)這樣的表達(dá)方式,或者在圖表里用SD或者SE來表示error bar,用SD的居多,但是也有不少用SE的。初學(xué)者很容易混淆SD(standard deviation)和SE(standard error)。
SD
SD我們都很清楚,是表達(dá)數(shù)據(jù)的離散程度,然后實(shí)際應(yīng)用中很多數(shù)據(jù)具有近似正態(tài)分布的概率分布,有了SD,我們就可以大致估計(jì)數(shù)據(jù)的范圍,譬如經(jīng)典的"68-95-99.7法則",即約 68% 數(shù)值分布在距離平均值有 1 個(gè)標(biāo)準(zhǔn)差之內(nèi)的范圍,約 95% 數(shù)值分布在距離平均值有 2 個(gè)標(biāo)準(zhǔn)差之內(nèi)的范圍,以及約 99.7% 數(shù)值分布在距離平均值有 3 個(gè)標(biāo)準(zhǔn)差之內(nèi)的范圍。如下圖:
SE
SE是什么呢,一般來說,自然界里很難獲得總體數(shù)據(jù),我們只能用樣本(無論是各種實(shí)驗(yàn)還是社會(huì)調(diào)查抽樣)去近似估計(jì)總體,這樣問題就來了,估計(jì)的準(zhǔn)不準(zhǔn)(平均值)?
我們可以理論上這樣做,既然不能獲得總體,我們可以盡可能多(無限)的從標(biāo)準(zhǔn)差為σ的總體數(shù)據(jù)里抽取大小為 n 的樣本,每個(gè)樣本各有一個(gè)平均值,所有樣本平均值的標(biāo)準(zhǔn)差就可以用"68-95-99.7法則"評(píng)估準(zhǔn)不準(zhǔn)了(這就是所謂的置信區(qū)間),樣本平均值的標(biāo)準(zhǔn)差可以被證明如下公式表達(dá):
但由于通常σ為未知,此時(shí)可以用研究中取得樣本的標(biāo)準(zhǔn)差 (S) 來估計(jì):
這就是SE的來源,即樣本平均值的SD,我們用MATLAB編程演示下。
MATLAB演示
以擲硬幣為例,擲100次,統(tǒng)計(jì)正面(1)的次數(shù),共統(tǒng)計(jì)1000次作為一個(gè)sample,然后我們這樣采1000個(gè)sample(程序不怕累的)。
先貼結(jié)果,代碼放后面。結(jié)果如下,我們能看到樣本平均值的SD基本等于樣本的SE!
完整代碼如下:
%1000個(gè)樣本(sample)
sample_mean = []
for m=1:1000
%擲硬幣100次,統(tǒng)計(jì)正面的次數(shù),共統(tǒng)計(jì)1000次作為一個(gè)sample
sample = []
for i = 1:1000
box = randi([0,1],100,1);
sample = [sample length(box(box==1))];
end
sample_mean = [sample_mean mean(sample)];
end
%sample的標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤
SD_sample = std(sample)
SE_sample = SD_sample/sqrt(1000)
%sample平均值的標(biāo)準(zhǔn)差
SD_sample_mean = std(sample_mean)
結(jié)論
1、標(biāo)準(zhǔn)差(SD)更能反應(yīng)離散程度。
paper里需要Mean±SD這個(gè)信息,就是便于讀者進(jìn)行判斷數(shù)據(jù)的離散性,e.g.,一般我們把偏離平均值2或3個(gè)SD的值作為outlier(i.e., 異常值)。
2、標(biāo)準(zhǔn)誤則比較適合用于評(píng)估精確性或準(zhǔn)確性的問題。
paper里根據(jù)需要也可以提供Mean±SE這個(gè)信息,就是便于讀者進(jìn)行判斷數(shù)據(jù)的不確定性,e.g.,95%置信區(qū)間是用的Mean ± 2*SE。
無論用哪種表達(dá)方式,一定要注意標(biāo)明,特別是error bar,好的paper都會(huì)說明這是什么的。