統計特征

在研究數據整體的時候,統計特征可以有效的幫助我們快速了解數據。

集中量數和差異量數是描述數據的兩種概念。

一:集中量數

描述一組數據的規律性的量數稱為集中量數。它是一組數據的一般水平的代表值。

教育評價中常用的描述一組評價對象一般水平的量數有算術平均數、中位數和眾數、幾何平均數等。

1.算術平均數

算術平均數是全部數據的算術平均,又稱均值,符號為M(Mean)。算術平均數是集中趨勢作主要的測度值,在統計學中具有重要地位, 是進行統計分析和統計推斷的基礎。它主要適用于數值型數據,但不適用品質數據。根據表現形式的不同,算術平均數有不同的計算形式和計算公式。其中,算術平均數是加權平均數的一種特殊形式(它特殊在各項全相等),在實際問題中,當各項權不相等時,計算平均數時就要采用加權平均數,當各項權相等時,計算平均數就要采用算數平均數。兩者不可混淆。

簡單算術平均數

簡單算術平均數主要用于未分組的原始數據。設一組數據為X1,X2,...,Xn,簡單的算術平均數的計算公式為:

M=(X1+X2+...+Xn)/n

優缺點

算數平均數具備了良好集中量數應具備的一些條件:

1、集中量數

2、反應靈敏

3、確定嚴密

4、簡明易解

5、計算簡單

6、適合進一步演算

7、較小受抽樣變化的影響等優點。

同時也存在一定的缺點,限制了它的使用:

1、算術平均數易受極端數據的影響,這是因為平均數反應靈敏,每個數據的或大或小的變化都會影響到最終結果。

2、若出現模糊不清的數據時,無法計算平均數。[1]

應用原則

1、同質性數據

2、平均數與個體數值相結合考慮

3、平均數于方差、標準差相結合考慮

二.中位數

中數(Median),又名中位數。 對一組數進行排序后,正中間的一個數(數字個數為奇數);或者中間兩個數的平均數(數字個數為偶數)。

中數是按順序排列在一起的一組數據中居于中間位置的數,即在這組數據中,有一半的數據比它大,有一半的數據比它小。這個數可能是數據中的某一個,也可能根本不是原有的數。

優點

1、計算簡單

2、容易理解

3、不受極端值影響

缺點

1、反應不夠靈敏

2、 受抽樣影響較大

3、中數乘以總次數于總數不相等

4、不能進一步代數運算

應用情況

1、需要快速估算集中值時

2、有極端數據時

3、有模糊不清楚的數據時

3.眾數

眾數(Mode),一組數據中出現次數最多的數值,叫眾數,用M表示。

計算眾數的方法

(一)、根據單項數列求眾數,不需要任何計算,可以直接從分配數列中找出出現次數或頻率最大的一組標志值,就是所求的眾數。

(二)、對組距數列求眾數。對眾數的計算有兩種公式:

1、上限公式:


2、下限公式


其中:

f表示眾數所在組次數;

f-1表示眾數所在組前一組的次數;

f+1表示眾數所在組后一組的次數;

L表示眾數所在組組距的下限;

U表示眾數所在組組距的上限;

i表示組距;

優點

1、簡單明了

2、容易理解

缺點

1、不穩定,受分組和樣本變動影響

2、反應不靈敏

3、不能進一步做代數運算

應用

1、需要快速估算一組數據集中值時。

2、數據不同質時

3、兩極端有極端值時

4、快速估計分布形體時

4.幾何平均數

幾何平均數(Geometric mean),是求一組數值的平均數的方法中的一種。適用于對比率數據的平均,并主要用于計算數據平均增長(變化)率。

幾何平均數(geometric mean)是指n個觀察值連乘積的n次方根。

1、簡單幾何平均數:

2、加權幾何平均數:

應用

1、對比率、指數等進行平均;

2、計算平均發展速度;

其中:樣本數據非負,主要用于對數正態分布。

3、復利下的平均年利率;

4、連續作業的車間求產品的平均合格率。

二 :差異量數

差異量數亦稱變異量數,又稱離散趨勢量數,它是統計學的基本概念之一,指表示樣本數據偏離中間數值的趨勢的量數,或者說它是反映樣本頻率分布離散程度的量數。差異量數大,表示各數值分布的范圍廣且參差不齊;差異量數小,表示各數值較集中、整齊,波動的范圍幅度小。因此,集中量數的代表性如何,可由差異量數得到反映。差異量數愈大,則集中量數的代表性愈小;差異量數愈小,則集中量數的代表性愈大。所以,考察某種分布的差異量數,還有助于對集中量數的理解。

常見的差異量有平均差方差標準差全距四分差、百分差等。

1.平均差

一組數據( 樣本)Xi,i = 1,…,N(1)的平均差公式為下圖


它是算術平均數與各數據距離的平均,有效地利用了信息,能直接很好地反映這組數據的差異程度。但由于MD(平均數)用了絕對值,難以進行代數運算,理論分析困難,所以運用較少。

2.方差


它是將MD中的距離改為距離的平方得到。方差可有效地利用信息,且能很好地反映這組數據的差異程度。這樣改變后,雖然不如平均差反映差異那么直接,但避免了絕對值,從而進行數學處理更加方便,應用最廣。

3.標準差

標準差(Standard Deviation),在概率統計中最常?

4.全距

全距是用來表示統計資料中的變異量數(measure sofvariation),其最大值最小值之間的差距;即最大值減最小值后所得之數據。其適用于等距變量、比率變量,不適用于名義變量或次序變量。

全距也稱為極差,是指總體各單位的兩個極端標志值之差,即:R=最大標志值-最小標志值

因此,全距(R)可反映總體標志值的差異范圍。

5.四分差與百分差

百分差與四分差只利用了數據的部分信息,不能進行代數運算,反應不靈敏,但當兩極端數據不清楚或數據信息不全時,只能用百分差與四分差。



全距、百分差與四分差都只利用了數據的部分信息,一般是在數據信息不全,平均差和方差及其改進量不能用時選用。



最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容