還是老習慣,給出官網教程,至于你是看還是不看,它就在那里,等著你的深入研究~
https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
往期教程:
(一)WGCNA分析中的軟閾值
WGCNA分析圖文詳解專題中要解釋的第三張圖,所有結果中最主要的結果圖恐怕就是這張了:
官方注釋:
Figure 1: Module-trait associations. Each row corresponds to a module eigengene, column to a trait. Each cell?contains the corresponding correlation and p-value. The table is color-coded by correlatio according to the color?legend.
這張圖有這幾個部分:
1,橫坐標:表型性狀(trait)。那么,根據表型性狀是連續型變量和分類變量如何數值化?
2,縱坐標:對應模塊,用每個模塊的eigengene來表示這個模塊。那么eigengene又是什么,怎么理解這個eigengene呢?
3,圖中的小格子:其中的數值代表什么?
4,每個性狀與模塊之間的相關性計算是否獨立的:即表型放在一起分析和分開單獨分析是否有不同?
小面我們來一一解讀。如有理解錯誤,還請各位大俠批評指正。
1,橫坐標:表型性狀(trait)
教程中的數據如上圖,行代表樣本,列代表性狀重量weight(g),長度length(cm)等。總共有134個樣本,26個性狀。
這里我截取了一小部分進行展示,一列代表一個性狀。重量和長度都是連續性變量,直接用就好。分類變量如男女,可以男1,女0進行數值化。
2,縱坐標:對應模塊的eigengene
官網給出的解釋是這個樣子的:
Eigengene,即每個模塊的第一主成分。
這里小編自己的理解就是這個模塊有134個樣本,n個基因,然后用pca主成分分析對這n個基因進行降維取其第一主成分作為這個模塊的特征。
3,圖中的小格子中的數值代表什么?
這里我們得到橫坐標的表型性狀向量和縱坐標的每個模塊的特征代表eigengene值向量,然后就可以計算每個模塊和性狀之間的相關性了。我們知道計算兩個向量之間的相關性有三種方法:"pearson", "kendall", "spearman"。
官方這里采用的pearson計算方法。
核心代碼:moduleTraitCor = cor(MEs, datTraits, use = "p")
嗯,用的cor函數。默認的method=”pearson”。那么這里圖中的小格子中的數值就代表每個性狀和每個模塊的特征值之間兩兩計算的相關性值以及對應的pvalue。
顏色表示紅色越深,越正相關;綠色越深,越負相關。并且,在這里你如果理解了這個相關性的計算,那么應該就可以理解不同性狀之間與模塊計算相關性時是相互獨立的。
?重點,敲黑板!!!
這個圖說難也不難,但是,卻是整個WGCNA分析的最主要的結果了。有個地方很關鍵,就是將臨床表型轉換為數值的trait的時候,直接涉及到了后面相關性的計算。如果轉換不合理很可能得到不好的結果喲。
今天就說到這里,歡迎大家留言討論。我們下期再見~
參考資料:
1,https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
2,AGeneral Framework for Weighted Gene Co-Expression Network Analysis,?Stat Appl Genet Mol Biol.?2005;4:Article17. Epub 2005 Aug 12