本教程根據PlantTech的WGCNA課程編寫,課程還是不錯的,所以將該課程給大家分享一下。
WGCNA筆記第一彈
1.WGCNA簡介
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權基因共表達網絡分析),鑒定表達模式相似的基因集合(module)。解析基因集合與樣品表型之間的聯系,繪制基因集合中基因之間的調控網絡并鑒定關鍵調控基因。
WGCNA適合于復雜的轉錄組數據
研究不同器官/組織類型和不同階段的發育調控、生物和非生物脅迫的不同時間點響應機制
2.主要內容
-
一、WGCNA原理
1.構建基因關系網絡
2.構建基因模塊
3.篩選關鍵基因
4.鑒定關鍵基因
-
二、WGCNA應用
- 1.應用場景-實驗設計、經典文獻
- 2.實例分析-單個材料、兩個材料
- 3.實例分析-結合表型
三、WGCNA實戰
3.WGCNA原理
4.構建基因關系網絡
4.1 計算基因間相關關系
基因間相似性(similarity):根據基因在不同樣品中的表達情況,計算任意兩個基因間的相關關系。用Pearson相關系數
基因共表達矩陣: S=[Sij]
Sij 表示基因i和基因j的Pearson相關系數。
軟閾值:通過加權函數將相關系數變換,形成鄰接矩陣(Adjacency Matrix),矩陣中元素連續化。
鄰接函數:power函數(冪指數函數)
aij=power(Sij, β)=|Sij|β
需要確定鄰接函數的參數β,依據無尺度網絡原則,即基因表達網絡符合無尺度網絡的冪函數分布
4.2 無尺度網絡
網絡圖的點指圖中的每一個節點,度指與該點的連接數
隨機網絡(Random network),每個節點的度相對平均
無尺度網絡(Scale-free network),少數節點具有明顯高于一般點的度,這些點被稱為hub,由少數hub與其他節點關聯,最終構成整個網絡
無尺度網絡的冪率分布:節點連接數為k的節點數h,k與h成反比,負相關
尺度:隨機網絡中每個節點的連接數符合泊松分布,大部分節點的連接數居中,中值稱為隨機網絡的尺度。
無尺度網絡符合冪率分布,大多數點只有很少的連接,少數點有很多的連接
基因相關關系,冪函數處理后,少數強相關性不受影響或者影響較小,而相關性弱的取n次冪后,相關性明顯下降。
4.3 確定關鍵參數β
尋找合適的β,使得基因表達關系符合無尺度網絡,度數高的節點少,度數低的節點多。
節點度數k與具有該度數節點的個數h服從冪律分布
具體計算度數為k的節點個數的對數值log(k),與該節點出現的概率對數(log(p(k)))呈現負相關,一般會設置相關系數大于0.8
為了檢測設置的參數β是否滿足無尺度網絡,對log10(p(k))和log10(k)作圖,同時為更好評估,對兩者之間的相關系數做平方,即R2。如果模型R2接近1,則兩者之間為很好的線性關系。
4.4 計算基因間表達關系
評估基因間表達關系:直接關系
生物體內基因間的關系:直接關系+間接關系
TOM:用拓撲重疊(topological overlap measure,TOM)來計算基因之間關聯程度,除了分析兩個基因之間的關系,還考慮這兩個基因與其他基因之間的連接。這樣更具有生物學意義。
建立TOM矩陣
TOM公式中,計算i與j之間的關系,不僅考慮了i和j的直接關系,還考慮了第三個基因μ的間接關系
5 構建基因模塊
5.1 層次聚類樹
基因模塊的劃分基于基因間的連接稀疏性,將TOM矩陣(Similarity)轉化為相異度矩陣(Dissimilarity):
利用基于TOM值的相異度層次聚類建樹
建樹方法:動態剪切樹和靜態剪切樹
5.2 動態混合剪切法
-
第一步:識別滿足設定條件的初級模塊
- 1.滿足模塊預定義的最低基因數目
- 2.距離集群過遠的基因,即使與集群處于同一分支,也去除
- 3.每個集群與其他周圍的集群顯著不同
- 4.處在樹分支尖端的每個群集的核心基因緊密相連
-
第二步:測試步驟
- 將未分配的基因進行測試,如果足夠接近某個初級群集,則分配進去
-
通常WGCNA使用動態混合剪切法建樹
5.3 建樹過程的參數
模塊最少基因數目(minModuleSize)
合并模塊的最小距離(mincutHeight)計算模塊的特征值,利用模塊特征值建樹,合并距離很近的模塊(如Height小于0.2)
模塊特征值(Epigengene)
模塊內所有基因進行主成分分析(PCA),第一主成分的值即為Epigengene。它代表該模塊內基因表達的整體水平
6 篩選基因模塊
主要介紹四種方法
6.1 表達模式分析
模塊表達模式分析:模塊在各個樣品中的豐度
模塊特征值(Epigengene):模塊內所有基因進行主成分分析(PCA),第一主成分的值即為Epigengene。它代表該模塊內基因表達的整體水平。
如果某模塊在樣品中特征值正或負表達較高,說明模塊與這個樣品關系緊密
6.2 模塊與表型性狀關聯分析
模塊顯著性值(Module significance,MS):模塊內所有基因的基因顯著性值的平均值。
基因顯著性值(Gene significance, GS):基因表達水平與因變量水平的相關系數。用T檢驗計算每個基因在不同表型樣品組間的差異表達顯著性檢驗P值(Pearson相關系數),通常將P值取以10底對數值定義為基因顯著性GS
計算各模塊與一表型性狀的MS值,如一個模塊的MS值顯著高于其他模塊,則這一模塊與該性狀存在關聯關系
模塊特征值顯著性(Epigengene significance, ES):模塊特征值與某一性狀的相關系數,篩選與性狀關聯度最高的模塊
6.3 富集分析
對各個模塊都進行GO和KEGG富集分析,找出與我們研究性狀相關通路相關性最強的模塊進行深入挖掘
6.4 依據目標基因篩選模塊
依據研究目的、前期研究結果和已發表文獻,有重點關注的目標基因,可直接篩選目標基因所在的基因模塊重點進一步分析
7 鑒定關鍵基因
7.1 模塊內部基因連接度分析
Connectivity(degree)-連接度:與某個基因連接的所有其他基因的總和,即描述一個基因與其他所有基因的關聯程度,一般用K值表示。
Intramodular connectivity KIM-模塊內部連接度IC:某個模塊中的基因與該模塊中其他基因的關聯程度(共表達程度)。可用來衡量模塊身份(module membership,MM).
Module Membership MM,or Epigengene-based connectivity KME:模塊身份,用一個基因在所有樣本中的表達語與某個模塊特征值的表達譜的相關性,來衡量這個基因在這個模塊中的身份。
KME值接近0,說明這個基因不是該模塊的成員:KME接近1或者-1,說明這個基因與該模塊密切相關(正相關或者負相關)。
可以對所有基因計算相對某個模塊的KME值,并不一定要是該模塊的成員。
KME與KIM高度相關。某個模塊中KIM值高的hub基因一定與該模塊的KME也很高。
KME與KIM的區別:IC衡量基因在特定模塊中的身份,MM衡量基因在全局網絡中的位置。
篩選關鍵基因:
TOM值(模塊調控系表中的weight值)大于閾值(默認是0.15)的兩個基因才認為是相關的,然后計算每個基因的連接度。即先篩選有足夠強度的關系,然后計算連接度。
模塊內部高連接度的基因,模塊內排名前30或者10%(KME或KIM).
篩選關鍵基因:將該基因模塊身份MM相對于基因顯著性GS做散點圖,選擇右上角MM和GS均高的基因進一步分析。
基因顯著性值(Gene significance,GS)因變量水平的相關系數。衡量基因與表型性狀的關聯程度,GS越高,說明與表型越相關,越具有生物學意義。GS可以為正值或負值(正相關或負相關)
Cytoscape中一般用weight值(TOM值)來繪制網絡圖。
7.2 特定功能基因分析
高連通性的基因一般位于調控網絡的上游;低連通性的基因一般位于調控網絡的下游。
調控網絡上游一般是調控因子,如轉錄因子;下游一般是功能性的酶或蛋白分子
重點關注具有調控功能的基因,典型的為轉錄因子,這些基因往往是關鍵基因
7.3 目標基因關聯分析
依據研究目的,選取跟目標基因關系緊密的基因,如篩選與目標基因的TOM值排名前10,或者TOM值大于0.2的基因
可準確篩選與目標基因存在上下游調控關系的候選基因
當目標基因連接度不高時,可篩選與目標基因TOM值很高,且自身連接度也很高的基因
參考文獻:
Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 9, 559 (2008). https://doi.org/10.1186/1471-2105-9-559
轉載請注明周小釗的博客>>WGCNA學習:WGCNA分析原理