總結:
使用條件:定類變量,大于等于兩組
數據集存放:原始數據直接用;統計過的數據需要加權個案
卡方值的選擇:需要根據樣本量n和格子中的理論數E來定。通常2*2數據量少的話用費舍卡方。
一 簡介
- 卡方檢驗主要應用于定類變量和定類變量之間的關系,比如驗證不同性別下使用電腦品牌是否存在差異。
- 也稱獨立性檢驗,是一種非參數假設檢驗。即利用卡方分布去做的假設檢驗。
- 關鍵詞:
- 卡方分布
統計學中三大分布,卡方分布,t分布,F分布,都是由正態分布推導而來。 - 假設檢驗
- 類別變量
- 自由度 Df=(r-1)(c-1)
- 卡方值與P值
P值:小拒大接 - 非參數檢驗
- 顯著性水平:在原假設成立下,拒絕原假設的概率,即犯第一錯誤的概率。
二 原理
(一)卡方檢驗統計量
image.png
- 小結
- 分子代表實際值與期望值的偏差(平方是為了消除負值影響),分母代表標準化。因此卡方統計量的值越小,代表觀測頻數與理論頻數越接近;
- 因為我們的原假設是:兩個變量是獨立的。(通常原假設是我們想要推翻的,我們想證明的結論一般放在備擇假設中)因此如果卡方統計量的值越大,對應的P值越小,小拒大接,則拒絕原假設,說明兩個變量相關;反之,卡方值越小,接受原假設,說明兩變量是獨立的
(為什么?我的理解:卡方值越小,偏差小,說明這兩個變量越符合卡方分布,而卡方分布的前提就是變量間的獨立性,因此證明這兩個變量是獨立的)
(二)基本流程
image.png
三 使用工具
SPSS卡方檢驗
- 如何存放數據集?
在使用SPSS卡方檢驗時,有兩種存放數據集方式。
第一種使用的是已經加工好的數據,需要創建三個變量值(類別1,類別2,數量)。此時一定要先對頻數加權個案,就是要告訴spss實際樣本很多,有相應的頻數之“和”那么多;如果不選擇,spss就會默認一行一個樣本數據;
第二種是直接使用原始樣本(即有多少樣本量就有多少行)
image.png
- 使用卡方檢驗有哪些前提條件?
R×C表卡方檢驗應用條件:
(1)R×C表中理論數小于5的格子不能超過1/5;
(2)不能有小于1的理論數。如果實驗中有不符合R×C表的卡方檢驗,可以通過增加樣本數、列合并來實現。
- 使用哪個卡方值更準確?
需要結合X和Y的類別個數,樣本量,以及期望頻數格子分布情況等,選擇最終應該使用的卡方值。
n代表總樣本量;E代表期望頻數;R代表X的類別個數;C代表Y的類別個數。
通常情況下,共有三種卡方值,分別是Pearson卡方,yates校正卡方,Fisher卡方;優先使用Pearson卡方,其次為yates校正卡方,最后為Fisher卡方。
- 針對2*2(R=2,C=2)
- 所有的理論數T≥5并且總樣本量n≥40,用Pearson卡方進行檢驗。
- 如果理論數T<5但T≥1,并且n≥40,用連續性校正的卡方進行檢驗。
- 如果有理論數T<1或n<40,則用Fisher’s檢驗。
- 針對R*C(R,C中任意一個大于2;且R>=2,且C>=2)
E全部>1 且 1 <=E<5格子的比例小于20% 則使用Pearson卡方,否則使用yates校正卡方。(?)
- 文字分析描述怎么寫?
從上表可知,類別1與類別2在統計學意義上存在顯著性差異(χ2=7.054,p =0.029 < 0.05)。具體描述再通過對比百分比尋找差異。
如果想了解兩個類別的相關強度,在SPSS交叉表-統計量-勾選相關性,查看相關系數。(弱相關、中度相關和強相關的分解線系數分別為0.1,0.3,0.5) - 卡方檢驗的缺陷
卡方檢驗只能判斷各組間是否存在差異,如果想要進一步確認具體是哪些組之間存在了差異,需要對結果更深入分析,即使用兩兩比較,見SPSS:多個樣本率的卡方檢驗及兩兩比較 - SPSS非參數檢驗中的卡方檢驗有什么區別?
簡單來說,交叉表是多變量的交叉,非參數中的卡方檢驗是單個變量的差異分析。比如檢驗商場一周從周一到周日每天人流量是否有差異。
知乎-踩坑總結
筆記18:SPSS交叉表卡方與非參數卡方檢驗有何區別?附案例