交叉分類問題
比較和對照是進行科學研究的基本手段。對于間距測度和比例測度的資料,進行分組比較時可以用均數檢驗、方差分析等方法。對于有較多可取值的序次測度資料,進行分組比較時可以用各種秩和檢驗方法。
而對于名義測度的資料、有序分類所得的資料(也屬序次測度),分組比較時需用交叉分類進行統計描述,交叉分類所得的表格稱為“列聯表”,統計推斷(檢驗)則要使用列聯表分析的方法------卡方檢驗。卡方分析是用來研究兩個定類變量間是否獨立即是否存在某種關聯性的最常用的方法。
例:按“性別”和“肥胖程度”交叉分類所得列聯表如下:
這里是按兩個變量交叉分類的,該列聯表稱為兩維列聯表,若按3個變量交叉分類,所得的列聯表稱為3維列聯表,依次類推。3維及以上的列聯表通常稱為“多維列聯表”或“高維列聯表”,而一維列聯表就是頻數分布表。
卡方分析的方法:假設兩個變量是相互獨立,互不關聯的。這在統計上稱為原假設;對于調查中得到的兩個變量的數據,用一個表格的形式來表示它們的分布(頻數和百分數),這里的頻數叫觀測頻數,這種表格叫列聯表;如果原假設成立,在這個前提下,可以計算出上面列聯表中每個格子里的頻數應該是多少,這叫期望頻數;比較觀測頻數與期望頻數的差,如果兩者的差越大,表明實際情況與原假設相去甚遠;差越小,表明實際情況與原假設越相近。這種差值用一個卡方統計量來表示;對卡方值進行檢驗,如果卡方檢驗的結果不顯著,則不能拒絕原假設,即兩變量是相互獨立、互不關聯的,如果卡方檢驗的結果顯著,則拒絕原假設,即兩變量間存在某種關聯,至于是如何關聯的,這要看列聯表中數據的分布形態。
應用交叉列聯表卡方檢驗時,應注意以下幾個問題:
列聯表各單元格中頻數大小的問題
列聯表中不應有期望頻數小于1的單元格,或不應有大量的期望頻數小于5的單元格。如果交叉列聯表中有20%以上的單元格中的期望頻數小于5,則一般不宜用卡方檢驗。
樣本量大小的問題
卡方值的大小會受到樣本量大小的影響,因此卡方檢驗受樣本量的影響很大。同樣兩個變量,不同的樣本量,可能得出不同的結論。例如:在某列聯表中,若各個單元格的樣本數均同比例擴大10倍,卡方值也會隨之擴大10倍。由于自由度和顯著度水平未改變,卡方的臨界值不變,從而使拒絕原假設的可能性增加。因此,有必要對Pearson卡方值進行修正,以消除樣本量的影響。可采用列聯系數、Phi系數等進行修正。
對變量取值的不同分類會引起卡方值的改變,有可能得到不同的結論。所以在分類時不能隨意,要有理論或統計上的依據。特別是對定距或定序變量,要先將變量的取值分組歸類,才能使用卡方分析,而且由于分組的方法不同,也會得出不同的結論;同時,對于定距或定序變量用卡方分析,沒有充分利用它們的數量信息。