加權基因共表達網絡分析(WGCNA, weighted gene coexpression network analysis)
是一種分析多個樣本基因表達模式的方法,將表達模式相似的基因進行聚類形成不同模塊,并分析模塊與表型或者性狀之間的關聯關系,以及網絡中的核心基因(Hub gene)。WGCNA將數以萬計的基因與表型之間的關系轉換為為數個基因集與表型之間的關聯,屬于一種信息歸納提煉的算法。
適用于:復雜的數據模式,一般推薦5組(或者15個sample)以上數據。
- 重要概念
-
權重(weight):因素或者指標的相對重要性/貢獻度,在WGCNA中可理解為基因之間的相關性。
2.** Module eigengene E**: 給定模型的第一主成分,即基因與樣本構成的矩陣,代表整個模型的基因表達譜。即用一個向量代替了一個矩陣,方便后期計算。 - 無尺度網絡(scale free network)
- 首先,我們把網絡看作一個圖形。
-
介紹無尺度網絡時,先引入一個概念,度(degree)。一個點的度是指圖形中的一個點關聯的邊數。生活中常見的網絡多為隨機網絡,即每一個點的度相對平均。那么無尺度網絡是什么樣的呢,有少數幾個節點連接更多的度,稱之為hub,而其它節點只鏈接1-2個度從而構成了整個網絡。生物體在進化過程中采用了無尺度網絡的模式,少數關鍵基因(Hub gene)執行主要生物學功能,從而維持機體健康與穩定。在這種模式下,即使機體受到外界刺激,只要不波及Hub gene,不會對機體產生太大影響,但是如果是隨機網絡,其受到傷害程度將直接與刺激強度成正比。
image.png
- 模塊(module):高度相關的基因,即表達模式相似的基因為一個模塊。
- 連接度(connectivity):類似于度,指的是與每個基因相連的邊屬性之和。
- 鄰近矩陣(Adjacency Matrix):是圖的一種存儲形式,用一個一維數組存放圖中所有頂點數據;用一個二維數組存放頂點間關系(邊或弧)的數據,這個二維數組稱為鄰接矩陣;在WGCNA分析里面指的是基因與基因之間的相關性系數矩陣。
- 拓撲重疊矩陣(TOM,topological overlap matrix):將上述的鄰接矩陣轉換為TOM,以降低噪音與假相關,獲得的新的距離矩陣,用于后續下游分析。
WGCNA一般步驟
image.png
后續實操明天學習
參考:1. WGCNA構建基因共表達網絡詳細教程 - wangshicheng - 博客園 (cnblogs.com)
- 生信技能樹 jimmy大神的github