基礎(chǔ)知識
一.線性相關(guān)分析:研究兩個變量間線性關(guān)系的程度
用相關(guān)系數(shù)r來描述,關(guān)于r的解讀:
(1)正相關(guān):如果x,y變化的方向一致,如身高與體重的關(guān)系,r>0;一般地,
|r|>0.95 存在顯著性相關(guān);
|r|≥0.8 高度相關(guān);
0.5≤|r|<0.8 中度相關(guān);
0.3≤|r|<0.5 低度相關(guān);
|r|<0.3 關(guān)系極弱,認為不相關(guān)
(2)負相關(guān):如果x,y變化的方向相反,如吸煙與肺功能的關(guān)系,r<0;
(3)無線性相關(guān):r=0。
如果變量Y與X間是函數(shù)關(guān)系,則r=1或r=-1;如果變量Y與X間是統(tǒng)計關(guān)系,則-1<r<1。
(4)r的計算有三種:
①Pearson相關(guān)系數(shù):對定距連續(xù)變量的數(shù)據(jù)進行計算。
②Spearman和Kendall相關(guān)系數(shù):對分類變量的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時,計算時先對離散數(shù)據(jù)進行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲取?br> 實際上,對任何類型的變量,都可以使用相應(yīng)的指標進行相關(guān)分析。也就是,有各種參數(shù),對適合它們的變量進行分析。
二.相關(guān)計算的其他系數(shù)
1 對于有序變量,最常用的還有Gamma統(tǒng)計量,取值介于1到-1之間,取值為零時候,代表完全不相關(guān)。其實,對于任何相關(guān)系數(shù),一個萬能公式就是,如果越接近零,代表越不相關(guān),越接近1,代表越相關(guān)。
在spss中,各種變量都被分到各個欄中,下面對應(yīng)著各種統(tǒng)計量。這部分操作是:“描述統(tǒng)計”~“交叉表”:“統(tǒng)計量”子對話框中實現(xiàn)。需要注意的是,雖然都是復(fù)選框,但是,也不能亂選,主要看想要分析的究竟是什么類型的變量。
2、偏相關(guān)分析:研究兩個變量之間的線性相關(guān)關(guān)系時,控制可能對其產(chǎn)生影響的變量。如控制年齡和工作經(jīng)驗的影響,估計工資收入與受教育水平之間的相關(guān)關(guān)系。
3、距離分析:是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。
(1)不相似性測度:
·a、對等間隔(定距)數(shù)據(jù)的不相似性(距離)測度可以使用的統(tǒng)計量有Euclid歐氏距離、歐氏距離平方等。
·b、對計數(shù)數(shù)據(jù)使用卡方。
·c、對二值(只有兩種取值)數(shù)據(jù),使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。
(2) 相似性測度:
·a、等間隔數(shù)據(jù)使用統(tǒng)計量Pearson相關(guān)或余弦。
·b、測度二元數(shù)據(jù)的相似性使用的統(tǒng)計量有20余種。
三.相關(guān)關(guān)系/復(fù)相關(guān)/偏相關(guān)/定序變量的概念及區(qū)別
1.相關(guān)關(guān)系:相關(guān)分析與回歸分析在實際應(yīng)用中有密切關(guān)系。然而在回歸分析中,所關(guān)心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關(guān)系的函數(shù)形式。而在相關(guān)分析中 ,所討論的變量的地位一樣,分析側(cè)重于隨機變量之間的種種相關(guān)特征。例如,以X、Y分別記小學(xué)生的數(shù)學(xué)與語文成績,感興趣的是二者的關(guān)系如何,而不在于由X去預(yù)測Y。
2.復(fù)相關(guān):研究一個變量 x0與另一組變量 (x1,x2,…,xn)之間的相關(guān)程度。例如,職業(yè)聲望同時受到一系列因素(收入、文化、權(quán)力……)的影響,那么這一系列因素的總和與職業(yè)聲望之間的關(guān)系,就是復(fù)相關(guān)。復(fù)相關(guān)系數(shù)R0.12…n的測定,可先求出 x0對一組變量x1,x2,…,xn的回歸直線,再計算x0與用回歸直線估計值憫之間的簡單直線回歸。復(fù)相關(guān)系數(shù)為R0.12…n的取值范圍為0≤R0.12…n≤1。復(fù)相關(guān)系數(shù)值愈大,變量間的關(guān)系愈密切。
3.偏相關(guān):研究在多變量的情況下,當控制其他變量影響后,兩個變量間的直線相關(guān)程度。又稱凈相關(guān)或部分相關(guān)。例如,偏相關(guān)系數(shù)r13.2表示控制變量x2的影響之后,變量 x1和變量x3之間的直線相關(guān)。偏相關(guān)系數(shù)較簡單直線相關(guān)系數(shù)更能真實反映兩變量間的聯(lián)系。
偏相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)、簡單直線相關(guān)系數(shù)之間存在著一定的關(guān)系。以3個變量x1,x2,x3為例,它們有如下的關(guān)系:
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/43e6c73351f6ed02ad4b5f81?fr=lemma&ct=single公式。。。
或
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/ac2fc3c4d6bfbd8a39db4983?fr=lemma&ct=single公式。。。
4.定序變量:討論兩個定序變量間的相關(guān)的程度與方向,又稱等級相關(guān)。???例如,研究夫婦雙方文化程度的相關(guān)等。等級相關(guān)系數(shù)有R系數(shù)和γ系數(shù)。???
R系數(shù) 計算方法與簡單直線相關(guān)系數(shù)相同。
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/30ecd5ef55607777acafd58f?fr=lemma&ct=single公式。。。
X,Y分別為x,y的測量值的等級。
英國統(tǒng)計學(xué)家 C.E.斯皮爾曼從R系數(shù)中推導(dǎo)出簡捷式,稱斯皮爾曼等級相關(guān)系數(shù):
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/d56b363437f73f7a5bb5f58a?fr=lemma&ct=single公式。。。
式中di=xi-yi,i=1,2,…,N(N為次數(shù))。
等級相關(guān)系數(shù) R具有與簡單直線相關(guān)相同的性質(zhì):取值范圍在〔-1,+1〕之間;R的絕對值愈大,變量間的等級相關(guān)程度愈大。
γ系數(shù) 適用于資料次數(shù)N 很大的情況。
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/ae826731a33b8f58ebc4af95?fr=lemma&ct=single公式。。。
式中Ns為同序?qū)?shù)目,Nd為異序?qū)?shù)目。
同序?qū)Ρ硎緝蓚€個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質(zhì);反之,若xi>xj,但yi<yj,則稱作一個異序?qū)Α?br> γ系數(shù)的取值范圍在〔-1,+1〕之間。γ的絕對值愈大,變量間的等級相關(guān)程度愈大。
四.Pearson,Kendall和Spearman三種相關(guān)分析方法異同
在SPSS軟件相關(guān)分析中,pearson(皮爾遜), kendall(肯德爾)和spearman(斯伯曼/斯皮爾曼)三種相關(guān)分析方法有什么異同:
兩個連續(xù)變量間呈線性相關(guān)時,使用Pearson積差相關(guān)系數(shù),不滿足積差相關(guān)分析的適用條件時,使用Spearman秩相關(guān)系數(shù)來描述.
Spearman相關(guān)系數(shù)又稱秩相關(guān)系數(shù),是利用兩變量的秩次大小作線性相關(guān)分析,對原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計方法,適用范圍要廣些。對于服從Pearson相關(guān)系數(shù)的數(shù)據(jù)亦可計算Spearman相關(guān)系數(shù),但統(tǒng)計效能要低一些。Pearson相關(guān)系數(shù)的計算公式可以完全套用Spearman相關(guān)系數(shù)計算公式,但公式中的x和y用相應(yīng)的秩次代替即可。
Kendall's tau-b等級相關(guān)系數(shù):用于反映分類變量相關(guān)性的指標,適用于兩個分類變量均為有序分類的情況。對相關(guān)的有序變量進行非參數(shù)相關(guān)檢驗;取值范圍在-1-1之間,此檢驗適合于正方形表格;
計算積距pearson相關(guān)系數(shù),連續(xù)性變量才可采用;計算Spearman秩相關(guān)系數(shù),適合于定序變量或不滿足正態(tài)分布假設(shè)的等間隔數(shù)據(jù); 計算Kendall秩相關(guān)系數(shù),適合于定序變量或不滿足正態(tài)分布假設(shè)的等間隔數(shù)據(jù)。
計算相關(guān)系數(shù):當資料不服從雙變量正態(tài)分布或總體分布未知,或原始數(shù)據(jù)用等級表示時,宜用 spearman或kendall相關(guān)
Pearson 相關(guān)復(fù)選項 積差相關(guān)計算連續(xù)變量或是等間距測度的變量間的相關(guān)分析
Kendall 復(fù)選項 等級相關(guān) 計算分類變量間的秩相關(guān),適用于合并等級資料
Spearman 復(fù)選項 等級相關(guān)計算斯皮爾曼相關(guān),適用于連續(xù)等級資料
注:
1若非等間距測度的連續(xù)變量 因為分布不明-可用等級相關(guān)/也可用Pearson 相關(guān),對于完全等級離散變量必用等級相關(guān)
2當資料不服從雙變量正態(tài)分布或總體分布型未知或原始數(shù)據(jù)是用等級表示時,宜用 Spearman 或 Kendall相關(guān)。
3 若不恰當用了Kendall 等級相關(guān)分析則可能得出相關(guān)系數(shù)偏小的結(jié)論。則若不恰當使用,可能得相關(guān)系數(shù)偏小或偏大結(jié)論而考察不到不同變量間存在的密切關(guān)系。對一般情況默認數(shù)據(jù)服從正態(tài)分布的,故用Pearson分析方法。
在SPSS里進入Correlate-》Bivariate,在變量下面Correlation Coefficients復(fù)選框組里有3個選項:
Pearson
Kendall's tau-b
Spearman:Spearman
spearman(斯伯曼/斯皮爾曼)相關(guān)系數(shù)
斯皮爾曼等級相關(guān)是根據(jù)等級資料研究兩個變量間相關(guān)關(guān)系的方法。它是依據(jù)兩列成對等級的各對等級數(shù)之差來進行計算的,所以又稱為“等級差數(shù)法”
斯皮爾曼等級相關(guān)對數(shù)據(jù)條件的要求沒有積差相關(guān)系數(shù)嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續(xù)變量觀測資料轉(zhuǎn)化得到的等級資料,不論兩個變量的總體分布形態(tài)、樣本容量的大小如何,都可以用斯皮爾曼等級相關(guān)來進行研究。
Kendall's相關(guān)系數(shù)
肯德爾(Kendall)W系數(shù)又稱和諧系數(shù),是表示多列等級變量相關(guān)程度的一種方法。適用這種方法的數(shù)據(jù)資料一般是采用等級評定的方法收集的,即讓K個評委(被試)評定N件事物,或1個評委(被試)先后K次評定N件事物。等級評定法每個評價者對N件事物排出一個等級順序,最小的等級序數(shù)為1 ,最大的為N,若并列等級時,則平分共同應(yīng)該占據(jù)的等級,如,平時所說的兩個并列第一名,他們應(yīng)該占據(jù)1,2名,所以它們的等級應(yīng)是1.5,又如一個第一名,兩個并列第二名,三個并列第三名,則它們對應(yīng)的等級應(yīng)該是1,2.5,2.5,5,5,5,這里2.5是2,3的平均,5是4,5,6的平均。
肯德爾(Kendall)U系數(shù)又稱一致性系數(shù),是表示多列等級變量相關(guān)程度的一種方法。該方法同樣適用于讓K個評委(被試)評定N件事物,或1個評委(被試)先后K次評定N件事物所得的數(shù)據(jù)資料,只不過評定時采用對偶評定的方法,即每一次評定都要將N個事物兩兩比較,評定結(jié)果如下表所示,表格中空白位(陰影部分可以不管)填入的數(shù)據(jù)為:若i比j好記1,若i比j差記0,兩者相同則記0.5。一共將得到K張這樣的表格,將這K張表格重疊起來,對應(yīng)位置的數(shù)據(jù)累加起來作為最后進行計算的數(shù)據(jù),這些數(shù)據(jù)記為γij。
正態(tài)分布的相關(guān)檢驗
對來自正態(tài)總體的兩個樣本進行均值比較常使用T檢驗的方法。T檢驗要求兩個被比較的樣本來自正態(tài)總體。兩個樣本方差相等與不等時用的計算T值的公式不同。
進行方差齊次性檢驗使用F檢驗。對應(yīng)的零假設(shè)是:兩組樣本方差相等。P值小于0.05說明在該水平上否定原假設(shè),方差不齊;否則兩組方差無顯著性差異。
U檢驗時用服從正態(tài)分布的檢驗量去檢驗總體均值差異情況的方法。在這種情況下總體方差通常是已知的。
雖然T檢驗法與U檢驗法所解決的問題大體相同,但在小樣本(樣本數(shù)n)=30作為大樣本)且均方差未知的情況下就不能用U檢驗法了。
均值檢驗時不同的數(shù)據(jù)使用不同的統(tǒng)計量
使用MEANS過程求若干組的描述統(tǒng)計量,目的在于比較。因此必須分組求均值。這是與Descriptives過程不同之處。
檢驗單個變量的均值是否與給定的常數(shù)之間存在差異,用One-Sample T Test 單樣本T檢驗過程。
檢驗兩個不相關(guān)的樣本是否來自來具有相同均值的總體,用Independent-Samples T test 獨立樣本t檢驗過程。
如果分組樣本不獨立,用Paired Sample T test 配對t檢驗。
如果分組不止兩個,應(yīng)使用One-Way ANOVO一元方差分析(用于檢驗幾個獨立的組,是否來自均值相等的總體)過程進行單變量方差分析。
如果試圖比較的變量明顯不服從正態(tài)分布,則應(yīng)該考慮使用一種非參數(shù)檢驗過程Nonparametric test.
如果用戶相比較的變量是分類變量,應(yīng)該使用Crosstabs功能。
當樣本值不能為負值時用右側(cè)單邊檢驗。