數(shù)據(jù)的集中趨勢(shì)
眾數(shù)
是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有可能沒(méi)有也有可能有多個(gè)。
中位數(shù)
中位數(shù),又稱中點(diǎn)數(shù),中值。中位數(shù)是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),即在這組數(shù)據(jù)中,有一半的數(shù)據(jù)比他大,有一半的數(shù)據(jù)比他小。中位數(shù)一定存在。
特點(diǎn)
1.中位數(shù)是以它在所有標(biāo)志值中所處的位置確定的全體單位標(biāo)志值的代表值,不受分布數(shù)列的極大或極小值影響,從而在一定程度上提高了中位數(shù)對(duì)分布數(shù)列的代表性
2.有些離散型變量的單項(xiàng)式數(shù)列,當(dāng)次數(shù)分布偏態(tài)時(shí),中位數(shù)的代表性會(huì)受到影響。
? ? ? ? ? ? 偏態(tài):偏態(tài)(skewness)是指非對(duì)稱分布的偏斜狀態(tài)。換句話說(shuō),就是指統(tǒng)計(jì)總體當(dāng)中的變量值分別落在眾數(shù)(M0)的左右兩邊,呈非對(duì)稱性分布。
3.趨于一組有序數(shù)據(jù)的中間位置
分位數(shù)
分位數(shù),亦稱分位點(diǎn),是指用分割點(diǎn)將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)具有相同概率的連續(xù)區(qū)間。分割點(diǎn)的數(shù)量比劃分出的區(qū)間少1,例如3個(gè)分割點(diǎn)能劃分出四個(gè)區(qū)間。
常見(jiàn)的有中位數(shù)(即二分位數(shù))、四分位數(shù)、十分位數(shù)、百分位數(shù)等。
定義:分位數(shù)指的就是連續(xù)分布函數(shù)中的一個(gè)點(diǎn),這個(gè)點(diǎn)對(duì)應(yīng)概率p
四分位數(shù):
第一四分位數(shù),又稱較小四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
第二四分位數(shù),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
第三四分位數(shù),又稱較大四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距。
平均數(shù)
定義:平均數(shù)是統(tǒng)計(jì)學(xué)中最常用的統(tǒng)計(jì)量,用來(lái)表明資料中各觀測(cè)值相對(duì)集中較多的中心位置。
為集中趨勢(shì)的最常用測(cè)度值,目的是確定一組數(shù)據(jù)的均衡點(diǎn)
算術(shù)平均數(shù)
是表征數(shù)據(jù)集中趨勢(shì)的一個(gè)統(tǒng)計(jì)指標(biāo)。 它是一組數(shù)據(jù)之和,除以這組數(shù)據(jù)個(gè)數(shù)/項(xiàng)數(shù)。
算術(shù)平均數(shù)在統(tǒng)計(jì)學(xué)上的優(yōu)點(diǎn),就是它較中位數(shù)、眾數(shù)更少受到隨機(jī)因素影響, 缺點(diǎn)是它更容易受到極端值影響。
計(jì)算公式為:
加權(quán)平均數(shù)
加權(quán)平均數(shù)與算術(shù)平均數(shù)類似,不同點(diǎn)在于,數(shù)據(jù)中的每個(gè)點(diǎn)對(duì)于平均數(shù)的貢獻(xiàn)并不是相等的,有些點(diǎn)要比其他的點(diǎn)更加重要。
如果所有的權(quán)重相同且等于一,那么加權(quán)平均數(shù)與算術(shù)平均數(shù)相同
加權(quán)平均數(shù)作為算術(shù)平均數(shù)的更廣義的表現(xiàn)形式,加權(quán)平均數(shù)具有一些看起來(lái)違反常理的性質(zhì),例如辛普森悖論。
術(shù)語(yǔ)加權(quán)平均數(shù)通常指的是加權(quán)算術(shù)平均數(shù),但是其他平均數(shù)的加權(quán)版本也可以計(jì)算出來(lái),例如加權(quán)幾何平均數(shù)和加權(quán)調(diào)和平均數(shù)。
辛普森悖論:當(dāng)人們嘗試探究?jī)煞N變量是否具有相關(guān)性的時(shí)候,會(huì)分別對(duì)之進(jìn)行分組研究。然而,在分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方。
幾何平均數(shù)
在數(shù)學(xué)中,幾何平均數(shù)?是一種均值,它通過(guò)使用它們的值的乘積(與使用它們的和的算術(shù)平均數(shù)相反)來(lái)指示一組數(shù)字的集中趨勢(shì)或典型值。幾何平均數(shù)定義為第n根個(gè)數(shù)的乘積的第n個(gè)根,即對(duì)于一組數(shù)字x1,x2,x3....xn, 幾何平均數(shù)定義為:
當(dāng)每個(gè)項(xiàng)目具有多個(gè)具有不同數(shù)值范圍的屬性時(shí),幾何平均數(shù)經(jīng)常使用在比較不同項(xiàng)目,為這些項(xiàng)目找到單個(gè)品質(zhì)因子。例如,幾何平均數(shù)可以給出有意義的“平均數(shù)”以比較兩家公司的環(huán)境可持續(xù)性評(píng)分為0到5,并且其財(cái)務(wù)可行性評(píng)級(jí)為0到100。如果使用算術(shù)平均數(shù)而不是幾何平均數(shù),則財(cái)務(wù)可行性給予更多權(quán)重,因?yàn)槠鋽?shù)值范圍更大 - 因此財(cái)務(wù)評(píng)級(jí)的一小部分變化(例如從80變?yōu)?0)會(huì)產(chǎn)生更大的差異。算術(shù)平均數(shù)比環(huán)境可持續(xù)性的大比例變化(例如從2到5)。使用幾何平均數(shù)“歸一化”被平均的范圍,使得沒(méi)有范圍支配加權(quán),并且任何屬性中的給定百分比變化對(duì)幾何平均數(shù)具有相同的影響。因此,沒(méi)有范圍控制加權(quán), 和給定的百分比變化的任何屬性對(duì)幾何平均數(shù)有相同的影響。因此,從 4 到 4.8,20% 的環(huán)境可持續(xù)性變化對(duì)幾何平均數(shù)的影響與從 60 到 72 的財(cái)務(wù)可行性的 20% 變化有同樣的效果。
幾何平均數(shù)可以根據(jù)幾何形狀來(lái)理解。兩個(gè)數(shù)字a和b的幾何平均數(shù)是正方形一邊的長(zhǎng)度,其面積等于以a和b為兩邊的矩形的面積。同樣, 三個(gè)數(shù)字, a、 b和c的幾何平均數(shù)是立方體一個(gè)邊的長(zhǎng)度,其體積與以a、b和c為邊的長(zhǎng)方體的體積相同。
幾何平均數(shù)僅適用于正數(shù)。它也經(jīng)常用于一組數(shù)位,它們的值是用來(lái)相乘的,或者是指數(shù)性質(zhì)的.
幾何平均數(shù)也是三個(gè)最經(jīng)典的畢達(dá)哥拉斯平均的其中一個(gè),與前面提到的算術(shù)平均數(shù)和下邊提到的調(diào)和平均數(shù)一起。對(duì)于包含至少一對(duì)不等數(shù)的所有正則資料集,調(diào)和平均數(shù)始終是三種方法中最小的,算術(shù)平均數(shù)始終是三中最大的,而幾何平均數(shù)始終介于兩者之間 。
調(diào)和平均數(shù)
調(diào)和平均數(shù):是求一組數(shù)值的平均數(shù)的方法中的一種,一般是在計(jì)算平均速率時(shí)使用。
調(diào)和平均數(shù)是將所有數(shù)值取倒數(shù)并求其算術(shù)平均數(shù)后,再將此算數(shù)平均數(shù)取倒數(shù)而得,其結(jié)果等于數(shù)值的個(gè)數(shù)除以數(shù)值倒數(shù)的總和。一組正數(shù)x1, x2?... xn的調(diào)和平均數(shù)H其計(jì)算公式為:
極差
又稱全距:用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù),為最大值與最小值之間的差額,即最大值減最小值后所得數(shù)值。
變異量數(shù):變異量數(shù)亦稱差異量數(shù),又稱離散趨勢(shì)量數(shù),它是統(tǒng)計(jì)學(xué)的基本概念之一,是表示樣本數(shù)據(jù)偏離中間數(shù)值的趨勢(shì)的量數(shù),或者說(shuō)它是反映樣本頻率分布離散程度的量數(shù)。差異量數(shù)大,表示各數(shù)值分布的范圍廣且參差不齊;差異量數(shù)小,表示各數(shù)值較集中、整齊,波動(dòng)的范圍幅度小。因此,集中量數(shù)的代表性如何,可由差異量數(shù)反映。差異量數(shù)愈大,則集中量數(shù)的代表性愈小;差異量數(shù)愈小,則集中量數(shù)的代表性愈大
數(shù)據(jù)的離中趨勢(shì)
數(shù)值型數(shù)據(jù):
方差
方差:在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離
將各個(gè)誤差將之平方(而非取絕對(duì)值,使之肯定為正數(shù)),相加之后再除以總數(shù),透過(guò)這樣的方式來(lái)算出各個(gè)數(shù)據(jù)分布、零散(相對(duì)中心點(diǎn))的程度。
特性:
1.方差不會(huì)是負(fù)的,因?yàn)榇畏接?jì)算為正的或?yàn)榱?/p>
????????Var(x)? >=? 0
2.一個(gè)常數(shù)隨機(jī)變量的方差為零,且當(dāng)一個(gè)資料集的方差為零時(shí),其內(nèi)所有項(xiàng)目皆為相同數(shù)值
????????P(X = a) = 1 <=>Var(X) = 0
3.方差不變于定位參數(shù)的變動(dòng)。也就是說(shuō),如果一個(gè)常數(shù)被加至一個(gè)數(shù)列中的所有變量值,此數(shù)列的方差不會(huì)改變
????????Var(X + a) = Var(X)
4.如果所有數(shù)值被放大一個(gè)常數(shù)倍,方差會(huì)放大此常數(shù)的平方倍
????????Var(aX) = a^2Var(X)
5.兩個(gè)隨機(jī)變量和的方差為
????????Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)
????????Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)
????????Cov代表協(xié)方差
標(biāo)準(zhǔn)差
在概率統(tǒng)計(jì)中最常使用作為測(cè)量一組數(shù)值的離散程度之用。標(biāo)準(zhǔn)差定義:為方差開(kāi)算術(shù)平方根,反映組內(nèi)個(gè)體間的離散程度;標(biāo)準(zhǔn)差與期望值之比為標(biāo)準(zhǔn)離差率。測(cè)量到分布程度的結(jié)果,原則上具有兩種性質(zhì):
????????1.為非負(fù)數(shù)值(因?yàn)殚_(kāi)平方后再做平方根);
????????2.與測(cè)量資料具有相同單位(這樣才能比對(duì))。
簡(jiǎn)單來(lái)說(shuō),標(biāo)準(zhǔn)差是一組數(shù)值自平均值分散開(kāi)來(lái)的程度的一種測(cè)量觀念。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分的數(shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。例如,兩組數(shù)的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個(gè)集合具有較小的標(biāo)準(zhǔn)差。
? ? ? ??
極差
又稱全距:用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù),為最大值與最小值之間的差額,即最大值減最小值后所得數(shù)值
平均差
定義:平均差是總體所有單位與其算術(shù)平均數(shù)的離差絕對(duì)值的算術(shù)平均數(shù)
描述:平均差異大,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越大,該算術(shù)平均數(shù)的代表性就越小;平均差越小,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越小,該算術(shù)平均數(shù)的代表性就越大。因離差和為零,離差的平均數(shù)不能將離差和除以離差的個(gè)數(shù)求得,而必須將離差取絕對(duì)數(shù)來(lái)消除正負(fù)號(hào)。平均差是反應(yīng)各標(biāo)志值與算術(shù)平均數(shù)之間的平均差異。
公式:
順序數(shù)據(jù):
四分位差
四分位數(shù)中第三四分位數(shù)與第一二分位數(shù)的差,又稱四分位距。
分類數(shù)據(jù):
異眾比率
異眾比率是統(tǒng)計(jì)學(xué)名詞,是統(tǒng)計(jì)學(xué)當(dāng)中研究現(xiàn)象離中趨勢(shì)的指標(biāo)之一。異眾比率指的是總體中非眾數(shù)次數(shù)與總體全部次數(shù)之比。換句話說(shuō),異眾比率指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。
相對(duì)離散程度
離散系數(shù)
標(biāo)準(zhǔn)離差率(變異系數(shù)或單位風(fēng)險(xiǎn)或離散系數(shù)):
定義:是概率分布離散程度的一個(gè)歸一化量度,其定義為標(biāo)準(zhǔn)差與平均值之比
變異系數(shù)(coefficient of variation)只在平均值不為零時(shí)有定義,而且一般適用于平均值大于零的情況
變異系數(shù)只對(duì)由比率標(biāo)量計(jì)算出來(lái)的數(shù)值有意義。舉例來(lái)說(shuō),對(duì)于一個(gè)氣溫的分布,使用開(kāi)爾文或攝氏度來(lái)計(jì)算的話并不會(huì)改變標(biāo)準(zhǔn)差的值,但是溫度的平均值會(huì)改變,因此使用不同的溫標(biāo)的話得出的變異系數(shù)是不同的。也就是說(shuō),使用區(qū)間標(biāo)量得到的變異系數(shù)是沒(méi)有意義的
優(yōu)點(diǎn):
比起標(biāo)準(zhǔn)差來(lái),變異系數(shù)的好處是不需要參照數(shù)據(jù)的平均值。變異系數(shù)是一個(gè)無(wú)量綱量,因此在比較兩組量綱不同或均值不同的數(shù)據(jù)時(shí),應(yīng)該用變異系數(shù)而不是標(biāo)準(zhǔn)差來(lái)作為比較的參考。
缺點(diǎn):
1.當(dāng)平均值接近于0的時(shí)候,微小的擾動(dòng)也會(huì)對(duì)變異系數(shù)產(chǎn)生巨大影響,因此造成精確度不足。
2.變異系數(shù)無(wú)法發(fā)展出類似于均值的置信區(qū)間的工具。
分布的形狀
偏態(tài)系數(shù)
定義:偏態(tài)系數(shù)以平均值與中位數(shù)之差對(duì)標(biāo)準(zhǔn)差之比率來(lái)衡量偏斜的程度,用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0,因?yàn)槠骄鶖?shù)在眾數(shù)之左,是一種左偏的分布,又稱為負(fù)偏。偏態(tài)系數(shù)大于0,因?yàn)榫翟诒姅?shù)之右,是一種右偏的分布,又稱為正偏。
描述:偏態(tài)系數(shù)是根據(jù)眾數(shù)、中位數(shù)與均值各自的性質(zhì),通過(guò)比較眾數(shù)或中位數(shù)與均值來(lái)衡量偏斜度的,即偏態(tài)系數(shù)是對(duì)分布偏斜方向和程度的刻畫(huà)
三種情況:
零值:偏態(tài)系數(shù)的取值為0時(shí),表示數(shù)據(jù)為完全的對(duì)稱分布
正值:偏態(tài)系數(shù)的取值為正數(shù)時(shí),表示數(shù)據(jù)為正偏態(tài)或右偏態(tài)
負(fù)值:偏態(tài)系數(shù)的取值為負(fù)數(shù)時(shí),表示數(shù)據(jù)為負(fù)偏態(tài),或左偏態(tài)
注意:偏態(tài)系數(shù)的絕對(duì)數(shù)值越小,表示數(shù)據(jù)偏倚的程度越小;偏態(tài)系數(shù)的絕對(duì)數(shù)值越大,表示數(shù)據(jù)偏倚的程度越大
峰態(tài)系數(shù)
峰度又稱四階標(biāo)準(zhǔn)矩,通常被定義為四階累積量除以二階累積量的平方,它等于四階中心矩除以概率分布方差的平方再減去3。
公式:
這也被稱為超值峰度。“減3”是為了讓正態(tài)分布的峰度為0。
如果超值峰度為正,稱為尖峰態(tài);如果超值峰度為負(fù),稱為低峰態(tài)。