數(shù)據(jù)的描述性統(tǒng)計(jì)

數(shù)據(jù)的集中趨勢(shì)


眾數(shù)

是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有可能沒(méi)有也有可能有多個(gè)。

中位數(shù)

中位數(shù),又稱中點(diǎn)數(shù),中值。中位數(shù)是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),即在這組數(shù)據(jù)中,有一半的數(shù)據(jù)比他大,有一半的數(shù)據(jù)比他小。中位數(shù)一定存在。

特點(diǎn)

1.中位數(shù)是以它在所有標(biāo)志值中所處的位置確定的全體單位標(biāo)志值的代表值,不受分布數(shù)列的極大或極小值影響,從而在一定程度上提高了中位數(shù)對(duì)分布數(shù)列的代表性

2.有些離散型變量的單項(xiàng)式數(shù)列,當(dāng)次數(shù)分布偏態(tài)時(shí),中位數(shù)的代表性會(huì)受到影響。

? ? ? ? ? ? 偏態(tài):偏態(tài)(skewness)是指非對(duì)稱分布的偏斜狀態(tài)。換句話說(shuō),就是指統(tǒng)計(jì)總體當(dāng)中的變量值分別落在眾數(shù)(M0)的左右兩邊,呈非對(duì)稱性分布。

3.趨于一組有序數(shù)據(jù)的中間位置

分位數(shù)

分位數(shù),亦稱分位點(diǎn),是指用分割點(diǎn)將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)具有相同概率的連續(xù)區(qū)間。分割點(diǎn)的數(shù)量比劃分出的區(qū)間少1,例如3個(gè)分割點(diǎn)能劃分出四個(gè)區(qū)間。

常見(jiàn)的有中位數(shù)(即二分位數(shù))、四分位數(shù)、十分位數(shù)、百分位數(shù)等。

定義:分位數(shù)指的就是連續(xù)分布函數(shù)中的一個(gè)點(diǎn),這個(gè)點(diǎn)對(duì)應(yīng)概率p

四分位數(shù):

第一四分位數(shù),又稱較小四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

第二四分位數(shù),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

第三四分位數(shù),又稱較大四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距


平均數(shù)

定義:平均數(shù)是統(tǒng)計(jì)學(xué)中最常用的統(tǒng)計(jì)量,用來(lái)表明資料中各觀測(cè)值相對(duì)集中較多的中心位置。

集中趨勢(shì)的最常用測(cè)度值,目的是確定一組數(shù)據(jù)的均衡點(diǎn)

算術(shù)平均數(shù)

是表征數(shù)據(jù)集中趨勢(shì)的一個(gè)統(tǒng)計(jì)指標(biāo)。 它是一組數(shù)據(jù)之和,除以這組數(shù)據(jù)個(gè)數(shù)/項(xiàng)數(shù)。

算術(shù)平均數(shù)在統(tǒng)計(jì)學(xué)上的優(yōu)點(diǎn),就是它較中位數(shù)眾數(shù)更少受到隨機(jī)因素影響, 缺點(diǎn)是它更容易受到極端值影響。

計(jì)算公式為:

加權(quán)平均數(shù)

加權(quán)平均數(shù)算術(shù)平均數(shù)類似,不同點(diǎn)在于,數(shù)據(jù)中的每個(gè)點(diǎn)對(duì)于平均數(shù)的貢獻(xiàn)并不是相等的,有些點(diǎn)要比其他的點(diǎn)更加重要。

如果所有的權(quán)重相同且等于一,那么加權(quán)平均數(shù)與算術(shù)平均數(shù)相同

加權(quán)平均數(shù)作為算術(shù)平均數(shù)的更廣義的表現(xiàn)形式,加權(quán)平均數(shù)具有一些看起來(lái)違反常理的性質(zhì),例如辛普森悖論

術(shù)語(yǔ)加權(quán)平均數(shù)通常指的是加權(quán)算術(shù)平均數(shù),但是其他平均數(shù)的加權(quán)版本也可以計(jì)算出來(lái),例如加權(quán)幾何平均數(shù)加權(quán)調(diào)和平均數(shù)

辛普森悖論:當(dāng)人們嘗試探究?jī)煞N變量是否具有相關(guān)性的時(shí)候,會(huì)分別對(duì)之進(jìn)行分組研究。然而,在分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方。

辛普森悖論

幾何平均數(shù)

在數(shù)學(xué)中,幾何平均數(shù)?是一種均值,它通過(guò)使用它們的值的乘積(與使用它們的和的算術(shù)平均數(shù)相反)來(lái)指示一組數(shù)字的集中趨勢(shì)或典型值。幾何平均數(shù)定義為第n根個(gè)數(shù)的乘積的第n個(gè)根,即對(duì)于一組數(shù)字x1,x2,x3....xn, 幾何平均數(shù)定義為:

當(dāng)每個(gè)項(xiàng)目具有多個(gè)具有不同數(shù)值范圍的屬性時(shí),幾何平均數(shù)經(jīng)常使用在比較不同項(xiàng)目,為這些項(xiàng)目找到單個(gè)品質(zhì)因子。例如,幾何平均數(shù)可以給出有意義的“平均數(shù)”以比較兩家公司的環(huán)境可持續(xù)性評(píng)分為0到5,并且其財(cái)務(wù)可行性評(píng)級(jí)為0到100。如果使用算術(shù)平均數(shù)而不是幾何平均數(shù),則財(cái)務(wù)可行性給予更多權(quán)重,因?yàn)槠鋽?shù)值范圍更大 - 因此財(cái)務(wù)評(píng)級(jí)的一小部分變化(例如從80變?yōu)?0)會(huì)產(chǎn)生更大的差異。算術(shù)平均數(shù)比環(huán)境可持續(xù)性的大比例變化(例如從2到5)。使用幾何平均數(shù)“歸一化”被平均的范圍,使得沒(méi)有范圍支配加權(quán),并且任何屬性中的給定百分比變化對(duì)幾何平均數(shù)具有相同的影響。因此,沒(méi)有范圍控制加權(quán), 和給定的百分比變化的任何屬性對(duì)幾何平均數(shù)有相同的影響。因此,從 4 到 4.8,20% 的環(huán)境可持續(xù)性變化對(duì)幾何平均數(shù)的影響與從 60 到 72 的財(cái)務(wù)可行性的 20% 變化有同樣的效果。

幾何平均數(shù)可以根據(jù)幾何形狀來(lái)理解。兩個(gè)數(shù)字a和b的幾何平均數(shù)是正方形一邊的長(zhǎng)度,其面積等于以a和b為兩邊的矩形的面積。同樣, 三個(gè)數(shù)字, a、 b和c的幾何平均數(shù)是立方體一個(gè)邊的長(zhǎng)度,其體積與以a、b和c為邊的長(zhǎng)方體的體積相同。

幾何平均數(shù)僅適用于正數(shù)。它也經(jīng)常用于一組數(shù)位,它們的值是用來(lái)相乘的,或者是指數(shù)性質(zhì)的.

幾何平均數(shù)也是三個(gè)最經(jīng)典的畢達(dá)哥拉斯平均的其中一個(gè),與前面提到的算術(shù)平均數(shù)和下邊提到的調(diào)和平均數(shù)一起。對(duì)于包含至少一對(duì)不等數(shù)的所有正則資料集,調(diào)和平均數(shù)始終是三種方法中最小的,算術(shù)平均數(shù)始終是三中最大的,而幾何平均數(shù)始終介于兩者之間 。

調(diào)和平均數(shù)

調(diào)和平均數(shù):是求一組數(shù)值的平均數(shù)的方法中的一種,一般是在計(jì)算平均速率時(shí)使用。

調(diào)和平均數(shù)是將所有數(shù)值取倒數(shù)并求其算術(shù)平均數(shù)后,再將此算數(shù)平均數(shù)倒數(shù)而得,其結(jié)果等于數(shù)值的個(gè)數(shù)除以數(shù)值倒數(shù)的總和。一組正數(shù)x1, x2?... xn的調(diào)和平均數(shù)H其計(jì)算公式為:

極差

又稱全距:用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù),為最大值最小值之間的差額,即最大值最小值后所得數(shù)值

變異量數(shù):變異量數(shù)亦稱差異量數(shù),又稱離散趨勢(shì)量數(shù),它是統(tǒng)計(jì)學(xué)的基本概念之一,是表示樣本數(shù)據(jù)偏離中間數(shù)值的趨勢(shì)的量數(shù),或者說(shuō)它是反映樣本頻率分布離散程度的量數(shù)。差異量數(shù)大,表示各數(shù)值分布的范圍廣且參差不齊;差異量數(shù)小,表示各數(shù)值較集中、整齊,波動(dòng)的范圍幅度小。因此,集中量數(shù)的代表性如何,可由差異量數(shù)反映。差異量數(shù)愈大,則集中量數(shù)的代表性愈小;差異量數(shù)愈小,則集中量數(shù)的代表性愈大


數(shù)據(jù)的離中趨勢(shì)


數(shù)值型數(shù)據(jù):

方差

方差:在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量方差描述的是它的離散程度,也就是該變量離其期望值的距離

將各個(gè)誤差將之平方(而非取絕對(duì)值,使之肯定為正數(shù)),相加之后再除以總數(shù),透過(guò)這樣的方式來(lái)算出各個(gè)數(shù)據(jù)分布、零散(相對(duì)中心點(diǎn))的程度。

特性:

1.方差不會(huì)是負(fù)的,因?yàn)榇畏接?jì)算為正的或?yàn)榱?/p>

????????Var(x)? >=? 0

2.一個(gè)常數(shù)隨機(jī)變量的方差為零,且當(dāng)一個(gè)資料集的方差為零時(shí),其內(nèi)所有項(xiàng)目皆為相同數(shù)值

????????P(X = a) = 1 <=>Var(X) = 0

3.方差不變于定位參數(shù)的變動(dòng)。也就是說(shuō),如果一個(gè)常數(shù)被加至一個(gè)數(shù)列中的所有變量值,此數(shù)列的方差不會(huì)改變

????????Var(X + a) = Var(X)

4.如果所有數(shù)值被放大一個(gè)常數(shù)倍,方差會(huì)放大此常數(shù)的平方倍

????????Var(aX) = a^2Var(X)

5.兩個(gè)隨機(jī)變量和的方差為

????????Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)

????????Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

????????Cov代表協(xié)方差

標(biāo)準(zhǔn)差

在概率統(tǒng)計(jì)中最常使用作為測(cè)量一組數(shù)值的離散程度之用。標(biāo)準(zhǔn)差定義:為方差開(kāi)算術(shù)平方根,反映組內(nèi)個(gè)體間的離散程度;標(biāo)準(zhǔn)差與期望值之比為標(biāo)準(zhǔn)離差率。測(cè)量到分布程度的結(jié)果,原則上具有兩種性質(zhì):

????????1.為非負(fù)數(shù)值(因?yàn)殚_(kāi)平方后再做平方根);

????????2.與測(cè)量資料具有相同單位(這樣才能比對(duì))。

簡(jiǎn)單來(lái)說(shuō),標(biāo)準(zhǔn)差是一組數(shù)值自平均值分散開(kāi)來(lái)的程度的一種測(cè)量觀念。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分的數(shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。例如,兩組數(shù)的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個(gè)集合具有較小的標(biāo)準(zhǔn)差。

? ? ? ??

極差

又稱全距:用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù),為最大值最小值之間的差額,即最大值最小值后所得數(shù)值

平均差

定義:平均差是總體所有單位與其算術(shù)平均數(shù)的離差絕對(duì)值的算術(shù)平均數(shù)

描述:平均差異大,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越大,該算術(shù)平均數(shù)的代表性就越小;平均差越小,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越小,該算術(shù)平均數(shù)的代表性就越大。因離差和為零,離差的平均數(shù)不能將離差和除以離差的個(gè)數(shù)求得,而必須將離差取絕對(duì)數(shù)來(lái)消除正負(fù)號(hào)。平均差是反應(yīng)各標(biāo)志值與算術(shù)平均數(shù)之間的平均差異。

公式:

順序數(shù)據(jù):

四分位差

四分位數(shù)中第三四分位數(shù)與第一二分位數(shù)的差,又稱四分位距。

分類數(shù)據(jù):

異眾比率

異眾比率是統(tǒng)計(jì)學(xué)名詞,是統(tǒng)計(jì)學(xué)當(dāng)中研究現(xiàn)象離中趨勢(shì)的指標(biāo)之一。異眾比率指的是總體中非眾數(shù)次數(shù)與總體全部次數(shù)之比。換句話說(shuō),異眾比率指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。


相對(duì)離散程度


離散系數(shù)

標(biāo)準(zhǔn)離差率(變異系數(shù)或單位風(fēng)險(xiǎn)或離散系數(shù)):

定義:是概率分布離散程度的一個(gè)歸一化量度,其定義為標(biāo)準(zhǔn)差平均值之比

變異系數(shù)(coefficient of variation)只在平均值不為零時(shí)有定義,而且一般適用于平均值大于零的情況

變異系數(shù)只對(duì)由比率標(biāo)量計(jì)算出來(lái)的數(shù)值有意義。舉例來(lái)說(shuō),對(duì)于一個(gè)氣溫的分布,使用開(kāi)爾文或攝氏度來(lái)計(jì)算的話并不會(huì)改變標(biāo)準(zhǔn)差的值,但是溫度的平均值會(huì)改變,因此使用不同的溫標(biāo)的話得出的變異系數(shù)是不同的。也就是說(shuō),使用區(qū)間標(biāo)量得到的變異系數(shù)是沒(méi)有意義的

優(yōu)點(diǎn):

比起標(biāo)準(zhǔn)差來(lái),變異系數(shù)的好處是不需要參照數(shù)據(jù)的平均值。變異系數(shù)是一個(gè)無(wú)量綱量,因此在比較兩組量綱不同或均值不同的數(shù)據(jù)時(shí),應(yīng)該用變異系數(shù)而不是標(biāo)準(zhǔn)差來(lái)作為比較的參考。

缺點(diǎn):

1.當(dāng)平均值接近于0的時(shí)候,微小的擾動(dòng)也會(huì)對(duì)變異系數(shù)產(chǎn)生巨大影響,因此造成精確度不足。

2.變異系數(shù)無(wú)法發(fā)展出類似于均值的置信區(qū)間的工具。


分布的形狀


偏態(tài)系數(shù)

定義:偏態(tài)系數(shù)以平均值中位數(shù)之差對(duì)標(biāo)準(zhǔn)差之比率來(lái)衡量偏斜的程度,用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0,因?yàn)槠骄鶖?shù)在眾數(shù)之左,是一種左偏的分布,又稱為負(fù)偏。偏態(tài)系數(shù)大于0,因?yàn)榫翟诒姅?shù)之右,是一種右偏的分布,又稱為正偏。

描述:偏態(tài)系數(shù)是根據(jù)眾數(shù)中位數(shù)均值各自的性質(zhì),通過(guò)比較眾數(shù)或中位數(shù)與均值來(lái)衡量偏斜度的,即偏態(tài)系數(shù)是對(duì)分布偏斜方向和程度的刻畫(huà)

三種情況:

零值:偏態(tài)系數(shù)的取值為0時(shí),表示數(shù)據(jù)為完全的對(duì)稱分布

正值:偏態(tài)系數(shù)的取值為正數(shù)時(shí),表示數(shù)據(jù)為正偏態(tài)或右偏態(tài)

負(fù)值:偏態(tài)系數(shù)的取值為負(fù)數(shù)時(shí),表示數(shù)據(jù)為負(fù)偏態(tài),或左偏態(tài)

注意:偏態(tài)系數(shù)的絕對(duì)數(shù)值越小,表示數(shù)據(jù)偏倚的程度越小;偏態(tài)系數(shù)的絕對(duì)數(shù)值越大,表示數(shù)據(jù)偏倚的程度越大

峰態(tài)系數(shù)

峰度又稱四階標(biāo)準(zhǔn)矩,通常被定義為四階累積量除以二階累積量的平方,它等于四階中心矩除以概率分布方差的平方再減去3。

公式:

這也被稱為超值峰度。“減3”是為了讓正態(tài)分布的峰度為0。

如果超值峰度為正,稱為尖峰態(tài);如果超值峰度為負(fù),稱為低峰態(tài)。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 按照用途分類出以下統(tǒng)計(jì)函數(shù): AVEDEV 用途:返回一組數(shù)據(jù)與其平均值的絕對(duì)偏差的平均值,該函數(shù)可以評(píng)測(cè)數(shù)據(jù)(例...
    四方院祭司閱讀 2,920評(píng)論 0 3
  • 單組數(shù)據(jù)的描述性統(tǒng)計(jì)一般有三種:直方圖、徑葉圖和框線圖三種。 舉例: 我們通過(guò)調(diào)用DAAG程序包中的“possum...
    文思匯集閱讀 1,170評(píng)論 0 0
  • 描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是用來(lái)概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計(jì)方法。通過(guò)統(tǒng)計(jì)處理可以簡(jiǎn)潔地用幾個(gè)統(tǒng)...
    AnthRax閱讀 25,667評(píng)論 -1 5
  • 1,中位數(shù):按從小到大排列好的中間值 2,眾數(shù):出現(xiàn)次數(shù)最多的那個(gè)數(shù) 3,方差:數(shù)值和均值的距離的平方數(shù)的平均值 ...
    沈婷_bbf1閱讀 5,252評(píng)論 1 2
  • 感恩自己每天清晨起來(lái)去鍛煉!感恩愛(ài)人每天中午買菜做飯!感恩孩子助我成長(zhǎng)!感恩好友秦暢告知我學(xué)習(xí)成長(zhǎng)的信息!感恩快遞...
    春風(fēng)化雨閆閱讀 103評(píng)論 0 0