本章主要介紹對均值、比例的假設檢驗,來判斷兩組不同設計之間是否有顯著差別。
1. 均值的比較 t檢驗
均值的比較一般可以用t檢驗,根據設計方式的不同可分為如下兩類
(1)配對樣本t檢驗
配對樣本,即相同的用戶參與了不同的測試。采用相同的用戶分別參加兩種不同的測試好處就是排除了用戶的個體干擾,面臨的問題就是需要對用戶先接觸哪個后接觸哪個做好平衡,不能讓兩個之間有影響。比如測試兩種藥品,先服用A藥后,已經對用戶產生了影響,再去服用B藥物的話就無法準確的看出效果了。
美食評判中,美食專家們都是品嘗完一道菜之后需要漱嘴然后才開始品嘗下一道菜,就是這個原因。
其中D表示兩個不同測試之間的差別。
(2) 雙總體t檢驗
即不同的用戶參與了不同的測試,一個A組,一個B組。通過兩組效果的差異進行比較。
假設兩個總體分別為X, Y
假設條件:
- 兩組樣本不相關
- 兩組樣本近似服從正態分布
在以上的前提假設下,Z=X-Y 也應該近似服從正態分布。且有
均值的估計可以用樣本的均值差, 而方差的估計就需要分情況討論了。
-
已知,
-
未知
- 已知
這個時候需要根據樣本1和樣本2的方差去聯合估計總體的方差
其中聯合估計方差- 已知
其中t分布的自由度是
- 已知
差異的效應(effect size)
除了差異是否顯著以外,在實際中我們還需要注意差異的效應,即這個差異究竟有多大
2.比例的比較
雙比例檢驗
雙總體的比例檢驗,比例其實可以看做是均值的一種特殊情況,所以雙總體的比例的比較也可以轉化為均值的比較。
卡方檢驗
對于分類型變量,另一個常用的檢驗方法就是卡方檢驗。卡方檢驗首先是一種非參數檢驗方法,其并不依賴于原始數據的分布假定,卡方檢驗主要應用于分類變量的關聯性分析(關于卡方檢驗的后續再詳細介紹)。
對于2x2的列聯表來說
通過 | 失敗 | 總計 | |
---|---|---|---|
實驗A | a | b | m |
實驗B | c | d | n |
總計 | r | s | N |
fisher精確檢驗
上述說的卡方檢驗和雙比例的檢驗其實都是一種近似,fisher精確檢驗依據超幾何分布,根據排列組合的概率來進行計算。