文獻信息如下:
Title:Integrating Genetic and Network Analysis to Characterize Genes Related to Mouse Weight
Published Date:August 18, 2006
Journal:PLoS Genetics (IF:7.63)
Author:Anatole Ghazalpour(第一作者,Department of Microbiology, Immunology, and Molecular Genetics, University of California Los Angele ),Steve Horvath2,3*(通訊作者,University of California Los Angeles)
這個文章可以說是最早的那批使用WGCNA策略來進行關鍵基因篩選的的文章,可以看到文章的圖并不怎么美觀,但是這個文章拿出來講有以下幾個原因:
- 1,作為WGCNA官網教程中示例數據的來源文章,有必要讀一下。
- 2,可以看到文章在選擇部分基因進入WGCNA時的策略。
- 3,可以看到很多參數比如GS,MM等計算的詳細公式,以及實際的生物學意義含義。
- 4,可以看到文章是如何使用WGCNA聯合其他分析(eQTL)來與表型Weight進行關聯分析的。
數據
1.表達譜:
使用了F2雜交的136個Female小鼠liver樣本,3600個基因進行WGCNA分析。
重點:對于選擇什么基因進行WGCNA網絡分析,這個文章提供了比較詳細和特別的理由說明,之前有人問過我用什么基因進入WGCNA分析,這篇文章的選取策略說不定能給你帶來收獲,原則上只要是一個gene set就可以,可以是全部的表達基因,也可以是上游你做差異分析得到的差異gene set,也就是說這個gene set怎么來的會有很多方法。
但是關于用什么基因做,官網有一個推薦,官方給的是不建議使用差異表達基因做:
此外,關于使用什么值來做WGCNA,作者也有提到:
ref:https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html
文章中基因的篩選策略為:
For module detection, we limited our analysis to the 3,600 most-connected genes because our module construction method and visualization tools cannot handle larger datasets at this point. By definition, module genes are highly connected with the genes of their module (i.e., module genes tend to have relatively high connectivity). Thus, for the purpose of module detection, restricting the analysis to the most-connected genes should not lead to major information loss. Since the network nodes in our analysis correspond to genes as opposed to probesets, we eliminated multiple probes with
similar expression patterns for the same gene.
2.表型數據:
測量了以下這些變量, 本文最關注的是與肥胖相關的體重,是一個數值型變量.
結果
1.Construction of a Weighted Mouse Liver Co-Expression Network
根據3600個基因,總共找到了12個模塊,每個模塊的基因數從34個基因(Light-yellow 模塊)到最大的模塊772個基因(Red模塊)。模塊的平均Kall為6.49 (Salmon模塊) 到27.58 (Brown模塊)
由于這個文章比較老,這里作者使用三維圖這構建的這個網絡進行了可視化,后面的教程都是用的熱圖進行可視化的方法,這個具體可以看公眾號的專題《WGCNA圖文詳解專題》。圖中每一個點表示一個基因,顏色表示模塊。點與點之間的距離表示拓撲矩陣中的值(topological overlap Matrix)。我們可以看到相同顏色即一個模塊的基因都聚到了一起。
2.Biological Significance of Network Modules
模塊找出來了,接著就是探索模塊的生物學功能,每個模塊都參與了什么樣的生物學過程。作者進行了GO數據庫和KEGG數據庫功能富集分析。比如
Brown模塊:Biosynthesis of steroids pathway 和 Glycolysis/Gluconeogenesis pathway相關。
Blue模塊:ECM-receptor interaction pathway 和 Complement and coagulation cascades pathway相關。
Green模塊:the Toll-like receptor signaling pathway 和 the Cytokine–cytokine receptor interaction pathway以及the Hematopoietic cell lineage pathway相關。
然后,作者評估了每個模塊與表型性狀之間的關系,這里用的定義為GS(gene significance),這里可以看到很詳細的解釋,摘出來給大家體會一下:
這個地方與Weight最相關的模塊為Blue模塊,使用的指標為MS,即每個模塊中所有GS的平均值,現在的WGCNA分析關聯表型與模塊使用的指標為每個模塊的eigengene值與表型性狀之間的peason相關系數。
此外,還可以看到Blue module 與abdominal fat pad mass 性狀,total mass (g) of other fat depots 性狀相關。下圖為Blue模塊與幾個臨床性狀之間的MS值展示。
因此,作者選擇了Blue模塊最后下游分析的深入挖掘。
3.Genetic Analysis of the Network Modules
以上結果是關于只使用基因表達數的共表達模塊分析。在下面,我們將模塊基因表達與遺傳標記聯系起來
研究該網絡遺傳基礎的數據模塊。下圖為Blue模塊的mQTL 和Candidate cis-eQTL的關系
4.Integration of Genetics and Intramodular Connectivity to Explain Physiological Significance of the Module
最后構建了三個線性模型,并評價了每個模型與Weight (GSweight) 之間的關系
文章最終的結論是:
This indicates that genes with strong linkage to the Chromosome 19 locus, absence of linkage to the SNPs described on Chromosomes 2, 5, and 10, and high connectivity have the highest absolute correlation with weight.
總結:針對本篇文章開頭列出來的四點,你是否有些收獲呢?