統計學-三大相關系數

參考:
1.ref1
2.微信:新年開工——相關性分析了解一下?
成對數據的相關性分析流程:

流程

計算相關系數,主要用R里的cor()函數
計算相關系數顯著性,用R里cor.test()函數cor.mtest()函數,后者可展示95%CI
其中有3種方法可供使用,分別是Pearson檢驗、Spearman檢驗和Kendall檢驗。

一.Pearson相關

要求:
① 實驗數據通常假設是成對的來自于正態分布的總體;
② 兩個數據序列的數據要一一對應,等間距等比例(觀測值是成對的,每對觀測值之間相互獨立)。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。
③實驗數據之間的差距不能太大,無極端值。極端值對積差相關系數的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變量變換,以避免因為一兩個數值導致出現錯誤的結論。

r取值:

對于一個具體的r取值,根據經驗可將相關程度分為以下幾種情況:當|r|≥0.8時,可視為高度相關;0.5≤|r|<0.8.可視為中度相關;0.3≤|r|<0.5時,視為低度相關;當|r|<0.3時,說明兩個變量之間的相關程度極弱,可視為不相關。(建立在顯著性檢驗的基礎之上才可以這樣解釋)

二.Spearman秩相關

要求:
① 不服從雙變量正態分布的資料;
② 總體分布類型未知;
③ 兩個數據序列的數據一一對應,等間距等比例。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。
注意:對于服從Pearson相關系數的數據亦可計算Spearman相關系數,但統計效能要低一些。

三.Kendall秩相關

要求:
當既不滿足正態分布,也不是等間距的定距數據,而是不明分布的定序數據時,不能使用Pearson相關和Spearman相關。此時,在相關分析中引入“一致對”的概念,借助“一致對”在“總對數”中的比例分析其相關性水平。

小結:

①Pearson相關適用于正態分布、連續變量或是等間距測度的數據;Spearman相關適用于不明分布、連續變量;Kendall相關適用于兩個分類變量均為有序分類的情況;
②當資料不服從雙變量正態分布或總體分布型未知或原始數據是用等級表示時,宜用 Spearman 或 Kendall相關;
③若不恰當用了Kendall等級相關分析則可能得出相關系數偏小的結論;因此對一般情況默認數據服從正態分布的,宜用Pearson分析方法。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容