【統計筆記】常用統計方法——卡方檢驗(獨立性檢驗)

總結:
使用條件:定類變量,大于等于兩組
數據集存放:原始數據直接用;統計過的數據需要加權個案
卡方值的選擇:需要根據樣本量n和格子中的理論數E來定。通常2*2數據量少的話用費舍卡方。

一 簡介

MBA智庫-百科-卡方檢驗詳情

  • 卡方檢驗主要應用于定類變量和定類變量之間的關系,比如驗證不同性別下使用電腦品牌是否存在差異。
  • 也稱獨立性檢驗,是一種非參數假設檢驗。即利用卡方分布去做的假設檢驗。
  • 關鍵詞:
  1. 卡方分布
    統計學中三大分布,卡方分布,t分布,F分布,都是由正態分布推導而來。
  2. 假設檢驗
  3. 類別變量
  4. 自由度 Df=(r-1)(c-1)
  5. 卡方值與P值
    P值:小拒大接
  6. 非參數檢驗
  7. 顯著性水平:在原假設成立下,拒絕原假設的概率,即犯第一錯誤的概率。

二 原理

(一)卡方檢驗統計量

image.png
  • 小結
  1. 分子代表實際值與期望值的偏差(平方是為了消除負值影響),分母代表標準化。因此卡方統計量的值越小,代表觀測頻數與理論頻數越接近;
  2. 因為我們的原假設是:兩個變量是獨立的。(通常原假設是我們想要推翻的,我們想證明的結論一般放在備擇假設中)因此如果卡方統計量的值越大,對應的P值越小,小拒大接,則拒絕原假設,說明兩個變量相關;反之,卡方值越小,接受原假設,說明兩變量是獨立的
    (為什么?我的理解:卡方值越小,偏差小,說明這兩個變量越符合卡方分布,而卡方分布的前提就是變量間的獨立性,因此證明這兩個變量是獨立的)

(二)基本流程

image.png

三 使用工具

SPSS卡方檢驗

  1. 如何存放數據集?
    在使用SPSS卡方檢驗時,有兩種存放數據集方式。
    第一種使用的是已經加工好的數據,需要創建三個變量值(類別1,類別2,數量)。此時一定要先對頻數加權個案,就是要告訴spss實際樣本很多,有相應的頻數之“和”那么多;如果不選擇,spss就會默認一行一個樣本數據;

第二種是直接使用原始樣本(即有多少樣本量就有多少行)


image.png
  1. 使用卡方檢驗有哪些前提條件?

R×C表卡方檢驗應用條件:
(1)R×C表中理論數小于5的格子不能超過1/5;
(2)不能有小于1的理論數。如果實驗中有不符合R×C表的卡方檢驗,可以通過增加樣本數、列合并來實現。

  1. 使用哪個卡方值更準確?

需要結合X和Y的類別個數,樣本量,以及期望頻數格子分布情況等,選擇最終應該使用的卡方值。
n代表總樣本量;E代表期望頻數;R代表X的類別個數;C代表Y的類別個數。
通常情況下,共有三種卡方值,分別是Pearson卡方,yates校正卡方,Fisher卡方;優先使用Pearson卡方,其次為yates校正卡方,最后為Fisher卡方。

  • 針對2*2(R=2,C=2)
  • 所有的理論數T≥5并且總樣本量n≥40,用Pearson卡方進行檢驗。
  • 如果理論數T<5但T≥1,并且n≥40,用連續性校正的卡方進行檢驗。
  • 如果有理論數T<1或n<40,則用Fisher’s檢驗。
  • 針對R*C(R,C中任意一個大于2;且R>=2,且C>=2)

E全部>1 且 1 <=E<5格子的比例小于20% 則使用Pearson卡方,否則使用yates校正卡方。(?)

  1. 文字分析描述怎么寫?
    從上表可知,類別1與類別2在統計學意義上存在顯著性差異(χ2=7.054,p =0.029 < 0.05)。具體描述再通過對比百分比尋找差異。
    如果想了解兩個類別的相關強度,在SPSS交叉表-統計量-勾選相關性,查看相關系數。(弱相關、中度相關和強相關的分解線系數分別為0.1,0.3,0.5)
  2. 卡方檢驗的缺陷
    卡方檢驗只能判斷各組間是否存在差異,如果想要進一步確認具體是哪些組之間存在了差異,需要對結果更深入分析,即使用兩兩比較,見SPSS:多個樣本率的卡方檢驗及兩兩比較
  3. SPSS非參數檢驗中的卡方檢驗有什么區別?
    簡單來說,交叉表是多變量的交叉,非參數中的卡方檢驗是單個變量的差異分析。比如檢驗商場一周從周一到周日每天人流量是否有差異。
    知乎-踩坑總結
    筆記18:SPSS交叉表卡方與非參數卡方檢驗有何區別?附案例

Python-卡方檢驗

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,570評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,505評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,017評論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,786評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,219評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,438評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,971評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,796評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,995評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,230評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,918評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,697評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,991評論 2 374