第一篇是懶人模式...
學習內容:數據的描述性統計
一、集中趨勢
1、眾數
眾數(Mode)是統計學名詞,在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平(眾數可以不存在或多于一個)。 修正定義:是一組數據中出現次數最多的數值,叫眾數,有時眾數在一組數中有好幾個。用 M 表示。 理性理解:簡單的說,就是一組數據中占比例最多的那個數。
2、中位數
中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。
對于有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
中位數示意圖:
3、分位數
分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。
4、平均數
平均數,統計學術語,是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的一項指標。解答平均數應用題的關鍵在于確定“總數量”以及和總數量對應的總份數。
在統計工作中,平均數(均值)和標準差是描述數據資料集中趨勢和離散程度的兩個最重要的測度值。
平均數分為三個大類,分別為算數平均數、加權平均數、幾何平均數
算數平均數
又稱均值,是統計學中最基本、最常用的一種平均指標,分為簡單算術平均數、加權算術平均數。它主要適用于數值型數據,不適用于品質數據。根據表現形式的不同,算術平均數有不同的計算形式和計算公式。
算術平均數是加權平均數的一種特殊形式(特殊在各項的權重相等)。在實際問題中,當各項權重不相等時,計算平均數時就要采用加權平均數;當各項權相等時,計算平均數就要采用算術平均數。
加權平均數
加權平均值即將各數值乘以相應的權數,然后加總求和得到總體值,再除以總的單位數。加權平均值的大小不僅取決于總體中各單位的數值(變量值)的大小,而且取決于各數值出現的次數(頻數),由于各數值出現的次數對其在平均數中的影響起著權衡輕重的作用,因此叫做權數。
因為加權平均值是根據權數的不同進行的平均數的計算,所以又叫加權平均數。在日常生活中,人們常常把“權數”理解為事物所占的“權重”,所以在本詞條中,我們不對這兩個詞加以區別。
幾何平均數
幾何平均數是對各變量值的連乘積開項數次方根。求幾何平均數的方法叫做幾何平均法。如果總水平、總成果等于所有階段、所有環節水平、成果的連乘積總和時,求各階段、各環節的一般水平、一般成果,要使用幾何平均法計算幾何平均數,而不能使用算術平均法計算算術平均數。根據所拿握資料的形式不同,其分為簡單幾何平均數和加權幾何平均數兩種形式。
二、數值型數據
1、方差
方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。
方差是衡量源數據和期望值相差的度量值。
方差的概念與計算公式,例如 兩人的5次測驗成績如下:X: 50,100,100,60,50,平均值E(X)=72;Y:73, 70,75,72,70 平均值E(Y)=72。平均成績相同,但X 不穩定,對平均值的偏離大。方差描述隨機變量對于數學期望的偏離程度。單個偏離是消除符號影響方差即偏離平方的均值,記為E(X):直接計算公式分離散型和連續型。推導另一種計算公式得到:“方差等于各個數據與其算術平均數的離差平方和的平均數”。其中,分別為離散型和連續型計算公式?[1]?。 稱為標準差或均方差,方差描述波動程度。
2、標準差
標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
3、極差
極差又稱范圍誤差或全距(Range),以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值后所得之數據。?
它是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。移動極差(Moving Range)是其中的一種。極差不能用作比較,單位不同 ,方差能用作比較, 因為都是個比率。
極差的計算公式:
4、平均差
平均差(Mean Deviation)是表示各個變量值之間差異程度的數值之一。指各個變量值同平均數的離差絕對值的算術平均數。
平均差異大,表明各標志值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須將離差取絕對數來消除正負號。平均差是反應各標志值與算術平均數之間的平均差異。
5、順序數據(四分位差)
四分位差(quartile deviation),它是上四分位數(Q3,即位于75%)與下四分位數(Q1,即位于25%)的差。
計算公式為:Q = Q3-Q1
四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極值的影響。此外,由于中位數處于數據的中間位置,因此,四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。四分位差主要用于測度順序數據的離散程度。對于數值型數據也可以計算四分位差,但不適合分類數據。
四分位數是將一組數據由小到大(或由大到小)排序后,用3個點將全部數據分為4等份,與這3個點位置上相對應的數值稱為四分位數,分別記為Q1(第一四分位數),說明數據中有25%的數據小于或等于Q1,Q2(第二四分位數,即中位數)說明數據中有50%的數據小于或等于Q2、Q3(第三四分位數)說明數據中有75%的數據小于或等于Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。
6、分類數據(異眾比率)
異眾比率(variation ratio)是統計學名詞,是統計學當中研究現象離中趨勢的指標之一。異眾比率指的是總體中非眾數次數與總體全部次數之比。換句話說,異眾比率指非眾數組的頻數占總頻數的比例。
計算公式
7、相對立三數據(離散系數)
離散系數又稱變異系數,是統計學當中的常用統計指標。離散系數是測度數據離散程度的相對統計 量,主要是用于比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。
三、分布的形狀
1、偏態系數
偏態系數又稱偏差系數,說明隨機系列分配不對稱程度的統計參數,用Cs表示。和Cv只能反映頻率密度分配曲線的平均情況和離散程度,而不能反映其對稱(即偏態)情況,所以必須再引入一個參數,即偏差系數Cso。偏態系數絕對值越大,偏斜越嚴重。
2、峰態系數
峰態系數( coefficient of kurtosis)即“峰度”。設隨機變量X的數學期望與方差統計學分別為EX和var(x)≠o,則稱≤萇:毒籌£一3為x的峰度。它是反映X的密度函數曲線在眾數附近的“峰”的尖峭程度的數字特征。正態分布的峰度為0,其他分布的峰度是以正態分布為標準描述該分布密度形狀為陡峭或平坦的數字特征。?
第一周的筆記,都是從百度百科copy的,真的是太懶了,后面的學習過程中要好好改正,每一周認真學習,這樣才有效果和意義。