看到一個博客上寫的一般檢驗的R應用總結,挺不錯的,分享一下。
本文總結了R in Action一書中提到的關于樣本檢驗的內容,以概要的形式提供給讀者以及自己參考。
注: H0表示空假設,即樣本檢測的假設對象。
獨立性檢驗(列聯表)
卡方檢驗:H0:假設二維表的行和列變量相互獨立。stats
包的chisq.test()*
Fisher精確檢驗: H0:邊界固定的二維列聯表行和列獨立。stats
包的fisher.test()*
Cochran-Mantel-Haenszel檢驗:*H0:兩個名義變量在第三個變量的每一層中都是條件獨立的。stats
包的.test()
相關性檢驗
常用系數:Pearson, Spearman, Kendall, 偏相關系數, 多分格polychoric,多系列polyserial
PSK: 相關系數cor(), 協方差cov(),psych
包的corr.test()
偏相關:控制一個或多個定量變量,檢驗另外兩個變量之間的相關性。ggm
包的pcor()
其他類型:polycor
包的hetcor()有多種其他類型的相關函數
相關顯著性檢驗
PSK: cor.test(), corr.test().后者可同時檢測多種相關關系。
其他類型:psych
包的pcor.test() & r.test()
- 參數檢驗
獨立樣本t檢驗:H0:被檢驗的兩組樣本獨立且均值相等,并且從正態總體中抽的。stats
包的t.test()*
非獨立樣本t檢驗:兩組觀測相關,一般通過非獨立組設計獲得,如pre-post design, repeated measures design。 H0:假定組間差異呈正態分布,且均值相等。stats
包的t.test(.。, paired=TRUE)*
多于兩組的非獨立樣本:如果對比組大于2且滿足數據是從正態總體中獨立抽樣獲得的假設,可采用ANOVA方差分析。
- 非參數檢驗: 通常獨立樣本也被稱作單樣本(one-sample)檢驗,非獨立樣本被稱作雙樣本(two-sample) 檢驗。單樣本檢驗的自由度是n1+n2-1,雙樣本檢驗自由度是n/2-1.
兩組獨立樣本:可以使用Wilcoxon秩和檢驗(Mann-Whitney U檢驗), wilcox.test()
兩組非獨立樣本:可以使用Wilcoxon符號秩檢驗。它適用于兩組成對數據且無法保證正態性假設的情景。stats
包的wilcox.test(.., paired=TRUE)
多于兩組的樣本:如果各組樣本獨立,則可使用Krushkal-Wallis檢驗;如果不獨立,可使用Friedman檢驗。H0:各組的平均值相同。stats
包的kruskal.test() &friedman.test()。npmc
包的npmc()*函數可實現非參數的多組比較。
樣本檢驗的一般步驟
提出研究問題,總結出需要通過數據分析得出的問題。
描述空假設和被選假設。空假設的提出通常需要能夠通過數據分析得出“接受”或“拒絕”的結論,如均值相等,均值大于X0等。
清楚假設條件。檢驗過程是在一定的假設條件下進行的,比如通常需要考慮,樣本是否獨立分布,均值和方差的統計分布等。
根據樣本數量和假設條件,選擇合適的檢驗方法,如t檢驗,以及檢驗統計量T。
在空假設和觀測樣本的基礎上,計算檢驗的統計分布,如學生分布或正態分布。
選擇合適的統計顯著水平p-value,常用的5%和1%。
計算檢驗統計量T的拒絕區間(critical region),即在該區間內,空假設即被拒絕為真。
根據觀測樣本,計算檢驗統計量的觀測直t_obs。
得出結論:如果t_obs落在拒絕區間里,則拒絕空假設;否則,無法拒絕空假設。
相關鏈接:
Statistical hypothesis testing
Exploratory data analysis
Quick-R: t-test