4.差異性

箱線圖和IQR

箱線圖(Box Plot):是由一組數據的最大值(maximum),最小值(minimum),中位數(median),兩個四分位數(quartiles)這五個特征值繪制而成的,它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。

四分位距(interquartile range,IQR):又稱四分差,是第三四分位數和第一四分位數之間的距離。其計算公式為:

四分位距反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。


離群值(Outlier):是指數據中一個或幾個數值與其他數值相比差異較大的值??梢酝ㄟ^IQR來識別離群值,我們可以定義離群值以外的觀測值范圍為:


方差與標準差

方差(Varlance):是各變量值與其平均數離散差平方的平均數。計算公式為

標準差(Standard Deviation):方差的平方根

在正態分布中,65%的數據介于均值減去一個標準差和均值加上一個標準差之間,95%的數據介于均值減去兩個標準差和均值加上兩個標準差之間,99.7%的數據介于均值減去3個標準差和均值加上三個標準差之間。


貝塞爾校正(Bessel's Correction):在統計學中,貝塞爾校正是在樣本的方差和標準差的公式中用n-1來代替n。這個方法校正了樣本方差/樣本標準差,與總體方差/樣本標準差之間的誤差。即樣本方差公式為:

image.png

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 按照用途分類出以下統計函數: AVEDEV 用途:返回一組數據與其平均值的絕對偏差的平均值,該函數可以評測數據(例...
    四方院祭司閱讀 2,940評論 0 3
  • 《數據分析的統計基礎》的讀書筆記 作 者:經管之家、曹正鳳 出版社:電子工業出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,909評論 1 58
  • Activity 一、四種形態 運行狀態: 當 Activity 處于棧的頂層,可見,并可與用戶進行交互 onRe...
    任教主來也閱讀 1,737評論 1 10
  • 雨一直下,連著下了好多天了。 雨一直下,今天早上看到了一點陽光便以為天會放晴。沒想到只是中間休息一下,讓太陽出來透...
    夢里詩閱讀 215評論 0 0
  • 文/呼呼 我已經十幾年沒有再投稿了,時隔十多年依然恍然如夢。和上次沒什么不同,冰冷的城市里,溫暖自己的身體。熱鬧的...
    心里有只貓閱讀 403評論 0 0