什么是WGCNA?
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權基因共表達網絡分析),鑒定表達模式相似的基因集合(module)。解析基因集合與樣品表型之間的聯系,繪制基因集合中基因之間的調控網絡并鑒定關鍵調控基因。WGCNA的出發點是基于系統的基因表達水平來構建一個網絡,目的是顯示出基因間的共表達關系,那么相似表達模式的基因可能存在共調控、功能相關或處于同一通路;即如果某些基因的表達趨勢隨著不同處理之間的變化而有相同的變化趨勢(表達模式),那么我們認為這些基因很可能在一個通路上,或者在相互調控的通路上富集。
WGCNA適合于復雜的轉錄組數據,研究不同器官/組織類型和不同階段的發育調控、生物和非生物脅迫的不同時間點響應機制
什么是共表達?
簡單來說在多樣樣本中,兩個的基因的表達模式相似,同時升高,同時降低。共表達往往意味著功能的相關性,比如A基因可能是B基因的轉錄因子。通過計算相關系數來判斷是否共表達。
什么是網絡?
通過基因的相關性來構建共表達網絡,可以設置一個閾值(0.8),大于0.8的可以認為有關系,通過一條線來連接。每一個節點代表一個基因,每條線代表基因之間的關系。通過連接線的粗細分為無權網絡和加權網絡,粗細反應了關系的強弱,相當于權重。節點之間的關系強弱叫做鄰接度,一個網絡的所有基因就形成了一個鄰接矩陣。連通性反映節點的重要程度,在無權網絡中連通性是有關節點的數目,而加權網絡就是所有有關節點關系強弱的疊加。
隨機網絡與無尺度網絡
隨機網絡沒有特別關鍵的節點,每個節點都和隨機和其它節點關聯。無尺度網絡中,多數節點都只與幾個節點有關(紅色點);極少數節點與很多節點有關(藍色點)。如果將每個節點的連接數進行排序,會發現無尺度網絡的連通性符合冪律分布。因此,一個模塊中有很多基因,但關鍵基因只有幾個。比如人際關系就是一個無尺度網絡,認識你的人可能有幾百個,但認識馬斯克的人可能有幾億個,那么馬斯克就是一個關鍵節點。
分析步驟
第一步數據預處理
數據輸入的要求,行名是樣本名,列名是基因名。如果是表達矩陣,需要轉置,表達矩陣建議用TPM。為了節約時間和計算資源,建議去掉所有樣本中表達量都很低的基因,去掉表達量幾乎沒有差異的基因,不建議只保留差異基因,因為會改變網絡的拓撲結構。
第二步構建相關性矩陣
相關系數范圍是-1~1,WGCNA分析要求轉換為0-1范圍。有兩種轉換方式,unsigned:不區分正相關和負相關,直接取絕對值;signed:區分正負相關。
第三步構建鄰接矩陣
人為設置閾值會存在主觀因素,所以WGCNA的作者開發了一種軟閾值的方法。軟閾值:soft threshold,用power函數將相關性矩陣轉換成鄰接矩陣,需要確定power的參數β。要求:(1)這個網絡更接近于無尺度網絡(2)盡可能保留連通性信息。
下圖左縱坐標是無尺度網絡的評價指標r2,r2越接近1,該網絡就越接近無尺度網絡,通常要求>0.8或0.9。下圖右縱坐標是平均連通性,該值隨β的增加而降低。綜合兩張圖,通常選r^2第一次達到0.8或0.9以上時的β值。有了β值就可以根據公式將相關性矩陣轉換為鄰接矩陣。
第四步構建拓撲重疊矩陣
簡稱TOM(Topological Overlap Matrix),相關系數只考慮到兩個節點之間的線性關系,而TOM則是考慮到中間節點的(間接的)計算方法。舉個例子:假如我們沒有觀察到A、B一起上班一起下班,但A認識的人B80%也認識,那么可以推斷A與B是互相認識的。
第五步構建共表達網絡
對基因進行聚類,每條線代表一個基因,相似的基因被聚到一個分支。
第六步模塊劃分 Dynamic Tree Cut
不同模塊用不同顏色表示,同一模塊的基因通常據有類似的功能
合并相似模塊
將相似的模塊進行合并
第八步模塊與性狀關聯
相關系數只能計算對應的兩列,表達矩陣是一個表格,而非一列。方法是對一個模塊里的基因表達矩陣進行主成分分析,用第一個主成分(PC1)的指標——特征向量(ME)代表一個模塊,得到模塊MEs矩陣。可以計算每個模塊的特征向量與三個性狀之間的相關系數,形成一個矩陣,可做熱圖。
第九步GS和MM
GS代表模塊里的每個基因與形狀的相關性。MM代表單條基因和所在模塊之間的相關性,表示是否與模塊的趨勢一致。
Cytoscape可視化
WGCNA的分析結果可以導入到Cytoscape中可視化