在研究數據整體的時候,統計特征可以有效的幫助我們快速了解數據。
集中量數和差異量數是描述數據的兩種概念。
一:集中量數
描述一組數據的規律性的量數稱為集中量數。它是一組數據的一般水平的代表值。
教育評價中常用的描述一組評價對象一般水平的量數有算術平均數、中位數和眾數、幾何平均數等。
1.算術平均數
算術平均數是全部數據的算術平均,又稱均值,符號為M(Mean)。算術平均數是集中趨勢作主要的測度值,在統計學中具有重要地位, 是進行統計分析和統計推斷的基礎。它主要適用于數值型數據,但不適用品質數據。根據表現形式的不同,算術平均數有不同的計算形式和計算公式。其中,算術平均數是加權平均數的一種特殊形式(它特殊在各項全相等),在實際問題中,當各項權不相等時,計算平均數時就要采用加權平均數,當各項權相等時,計算平均數就要采用算數平均數。兩者不可混淆。
簡單算術平均數
簡單算術平均數主要用于未分組的原始數據。設一組數據為X1,X2,...,Xn,簡單的算術平均數的計算公式為:
M=(X1+X2+...+Xn)/n
優缺點
算數平均數具備了良好集中量數應具備的一些條件:
1、集中量數
2、反應靈敏
3、確定嚴密
4、簡明易解
5、計算簡單
6、適合進一步演算
7、較小受抽樣變化的影響等優點。
同時也存在一定的缺點,限制了它的使用:
1、算術平均數易受極端數據的影響,這是因為平均數反應靈敏,每個數據的或大或小的變化都會影響到最終結果。
應用原則
1、同質性數據
2、平均數與個體數值相結合考慮
3、平均數于方差、標準差相結合考慮
二.中位數
中數(Median),又名中位數。 對一組數進行排序后,正中間的一個數(數字個數為奇數);或者中間兩個數的平均數(數字個數為偶數)。
中數是按順序排列在一起的一組數據中居于中間位置的數,即在這組數據中,有一半的數據比它大,有一半的數據比它小。這個數可能是數據中的某一個,也可能根本不是原有的數。
優點
1、計算簡單
2、容易理解
3、不受極端值影響
缺點
1、反應不夠靈敏
2、 受抽樣影響較大
3、中數乘以總次數于總數不相等
4、不能進一步代數運算
應用情況
1、需要快速估算集中值時
2、有極端數據時
3、有模糊不清楚的數據時
3.眾數
眾數(Mode),一組數據中出現次數最多的數值,叫眾數,用M表示。
計算眾數的方法
(一)、根據單項數列求眾數,不需要任何計算,可以直接從分配數列中找出出現次數或頻率最大的一組標志值,就是所求的眾數。
(二)、對組距數列求眾數。對眾數的計算有兩種公式:
1、上限公式:
2、下限公式
其中:
f表示眾數所在組次數;
f-1表示眾數所在組前一組的次數;
f+1表示眾數所在組后一組的次數;
L表示眾數所在組組距的下限;
U表示眾數所在組組距的上限;
i表示組距;
優點
1、簡單明了
2、容易理解
缺點
1、不穩定,受分組和樣本變動影響
2、反應不靈敏
3、不能進一步做代數運算
應用
1、需要快速估算一組數據集中值時。
2、數據不同質時
3、兩極端有極端值時
4、快速估計分布形體時
4.幾何平均數
幾何平均數(Geometric mean),是求一組數值的平均數的方法中的一種。適用于對比率數據的平均,并主要用于計算數據平均增長(變化)率。
幾何平均數(geometric mean)是指n個觀察值連乘積的n次方根。
1、簡單幾何平均數:
2、加權幾何平均數:
應用
1、對比率、指數等進行平均;
2、計算平均發展速度;
其中:樣本數據非負,主要用于對數正態分布。
3、復利下的平均年利率;
4、連續作業的車間求產品的平均合格率。
二 :差異量數
差異量數亦稱變異量數,又稱離散趨勢量數,它是統計學的基本概念之一,指表示樣本數據偏離中間數值的趨勢的量數,或者說它是反映樣本頻率分布離散程度的量數。差異量數大,表示各數值分布的范圍廣且參差不齊;差異量數小,表示各數值較集中、整齊,波動的范圍幅度小。因此,集中量數的代表性如何,可由差異量數得到反映。差異量數愈大,則集中量數的代表性愈小;差異量數愈小,則集中量數的代表性愈大。所以,考察某種分布的差異量數,還有助于對集中量數的理解。
常見的差異量有平均差、方差、標準差、全距、四分差、百分差等。
1.平均差
一組數據( 樣本)Xi,i = 1,…,N(1)的平均差公式為下圖
它是算術平均數與各數據距離的平均,有效地利用了信息,能直接很好地反映這組數據的差異程度。但由于MD(平均數)用了絕對值,難以進行代數運算,理論分析困難,所以運用較少。
2.方差
它是將MD中的距離改為距離的平方得到。方差可有效地利用信息,且能很好地反映這組數據的差異程度。這樣改變后,雖然不如平均差反映差異那么直接,但避免了絕對值,從而進行數學處理更加方便,應用最廣。
3.標準差
標準差(Standard Deviation),在概率統計中最常?
4.全距
全距是用來表示統計資料中的變異量數(measure sofvariation),其最大值與最小值之間的差距;即最大值減最小值后所得之數據。其適用于等距變量、比率變量,不適用于名義變量或次序變量。
全距也稱為極差,是指總體各單位的兩個極端標志值之差,即:R=最大標志值-最小標志值
因此,全距(R)可反映總體標志值的差異范圍。
5.四分差與百分差
百分差與四分差只利用了數據的部分信息,不能進行代數運算,反應不靈敏,但當兩極端數據不清楚或數據信息不全時,只能用百分差與四分差。
全距、百分差與四分差都只利用了數據的部分信息,一般是在數據信息不全,平均差和方差及其改進量不能用時選用。