一文理清常見的基因富集分析

前言

對于很多小伙伴來說,剛入手生信時接觸最多的就是差異分析,即在基因組層面可以算突變率差異,轉錄組層面可以算基因表達水平差異,表觀組可以觀察甲基化水平差異,蛋白質組/代謝組可以看蛋白/代謝物豐度差異,甚至是宏基因組也可以比較菌群的豐度。事實上,在分子水平的最終落腳點都是在生物學中心法則的核酸水平,確切的說是在基因水平,但是基因的種類有很多,包括蛋白編碼基因(mRNA)、非編碼基因(miRNA、lncRNA、snRNA等),理解這些基因所代表的生物學意義的最佳途徑就是基因富集分析。

因此,本文的重點就是圍繞富集分析展開,并主要從以下四個問題講起,即:什么是富集分析?富集分析能用來干什么?富集分析有幾種類型?如何在SCI文章中實現高質量富集分析?


主要內容

什么是富集分析?

富集分析的原理其實就是一個生物過程通常是由一組基因共同參與,而不是由單個基因獨自完成。富集分析的基本前提假設是,如果一個生物學過程在已知的研究中發生異常,則共同發揮功能的基因極可能被選擇出來作為一個與這一過程相關的基因集合。基因集富集分析(Gene Set Enrichment Analysis, GSEA)通常是分析一組基因在某個功能節點上是否相比于隨機水平過于出現(over-presentation)。富集分析原理可以由單個基因的簡單注釋,擴展到多個基因集合的成組分析。

富集分析能用來干什么?

富集分析的作用。一組基因直接注釋的結果是得到大量的功能節點,這些功能具有概念上的交疊現象,導致分析結果冗余,不利于進一步的精細分析,所以研究人員希望對得到的功能節點加以過濾和篩選,以便獲得更有意義的功能信息。目前最常用的方法是基于GO和KEGG的富集分析。首先通過多種方法多的大量的感興趣的基因,例如差異表達基因集、共表達基因模塊、蛋白質復合物基因簇等,然后尋找這些感興趣基因集顯著富集的GO節點或者KEGG通路,這有助于進一步深入細致的實驗研究??偠灾?,富集分析是用來解讀一組基因背后所代表的生物學知識,揭示其在細胞內或細胞外扮演了什么樣的角色。

富集分析中常用的統計方法有累計超幾何分布、Fisher精確檢驗等。由于在進行富集分析時通常需要同時進行大量檢驗(多重檢驗),所以需要采用多重檢驗校正的方法對檢驗結果進行校正,常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正。利用富集分析方法,對基因注釋數據庫做生物信息學研究產生了很多富集分析工具,例如DAVID在線分析工具、R clusterProfiler包、Metascape等,這些工具對促進基因功能分析以及研究高通量測序技術產生的生物學知識數據發揮了關鍵作用。因為網絡上相關的教程有很多,本初不再贅述,大家可以自行檢索,文末列舉了幾個小編認為適合上手的教程。

富集分析有幾種類型?

依據富集分析過程中基因選擇、注釋數據庫的不同,常用的富集分析可以分為以下四種類型:GO term功能富集、KEGG pathway通路富集、MSigDB基因集富集和單基因富集等等。

GO term功能富集

基因本體(gene ontology, GO)數據庫是GO組織在2000年構建的一個結構化的標準生物學模型,涵蓋了細胞組分、分子功能、生物學過程三個方面,是目前應用最廣泛的基因注釋體系之一。GO的注釋體系是一個有向無環圖,包含三個分支,注釋系統中每一個節點都是基因或蛋白質的一種描述,節點之間保持嚴格的“父子”關系。因此,一個基因或蛋白質可以從三個層面得到注釋。

KEGG pathway通路富集

京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG)是系統分析基因功能、基因組信息的數據庫,整合了基因組學、生物化學及系統功能組學的信息,有助于研究者把基因及表達信息作為一個整體進行研究。目前KEGG共包含了19個子數據庫,富集分析常用在KEGG Pathway通路中。

MSigDB基因集富集

MSigDB數據庫定義了已知的基因集合,包括H和C1-C7八個系列(Collection)。H: hallmark gene sets (效應)特征基因集合,共50組;C1: positional gene sets 位置基因集合,根據染色體位置,共326個;C2: curated gene sets:(專家)共識基因集合,基于通路、文獻等,包括KEGG;C3: motif gene sets:模式基因集合,主要包括microRNA和轉錄因子靶基因兩部分;C4: computational gene sets:計算基因集合,通過挖掘癌癥相關芯片數據定義的基因集合;C5: GO gene sets:Gene Ontology 基因本體論;C6: oncogenic signatures:癌癥特征基因集合,大部分來源于NCBI GEO 未發表芯片數據;C7: immunologic signatures: 免疫相關基因集合。可以從中獲取大量的已知基因集合從而進行富集分析。

單基因富集

單基因富集分析并不是說拿單個基因來進行富集分析,一個基因根本沒法進行統計檢驗。而是基于單個基因來抓取與其相關的基因,然后用這些相關的基因來進行功能富集,有兩種方法:差異法和相關法。

差異法:根據給定的一個基因的表達值對樣本進行分組,然后計算組間的差異表達基因,進而利用差異基因進行富集分析。

相關法:計算給定的一個基因的表達值與其他基因之間的相關性,將具有顯著相關的基因作為一個集合進行富集分析。

如何在SCI文章中實現高質量富集分析?

接下來從三篇SCI文章當中看一下如何將其應用。

(一)富集分析揭示腫瘤亞型

2021年8月份發表在JCI Insight(IF=8.311)上的研究Key molecular alterations in endothelial cells in human glioblastoma uncovered through single-cell RNA sequencing,從單細胞角度對膠質母細胞瘤中的內皮譜系細胞進行的降維、聚類,識別到五個亞群,通過計算亞群特異的差異表達基因,進而使用差異表達基因針對GO進行功能富集分析,揭示了這5個亞群特異的生物學功能,進而完成了膠質母細胞瘤的亞型區分,后續進行亞型刻畫及生存預后分析。

圖片

(二)富集分析常見套路

2020年12月份發表在Medicine (Baltimore) (IF=1.880)的文章Screening and identification of key genes between liver hepatocellular carcinoma (LIHC) and cholangiocarcinoma (CHOL) by bioinformatic analysis,從GEO數據庫搜索相關數據,一共找到三套數據,分別下載整理進行差異分析,對三套數據分析得到的差異基因取交集,一共得到170個差異基因,將上述得到的170個差異基因進行GO富集分析、KEGG富集分析,揭示關鍵功能。后續進行hub基因識別、生存分析驗證,足以發SCI文章。

圖片

(三)富集分析常見用法

2021年4月發表在Medicine (Baltimore) (IF=1.880)的文章Identification and analysis of key genes associated with acute myocardial infarction by integrated bioinformatics methods。

基本思路是差異分析、GO和KEGG富集分析、PPI分析、篩選hub基因。通過進行差異分析,分別從GSE66360成功鑒定出289個上調的DEG和62個下調的DEG。并且它們主要在富集在嗜中性粒細胞活化,免疫反應,細胞因子,核因子κB(NF-κB)信號通路,IL-17信號通路和腫瘤壞死因子(TNF)信號通路。根據蛋白質間相互作用(PPI)的數據,對排名前10位的hub基因進行了排序,包括白介素8(CXCL8),TNF,N-甲酰基肽受體2(FPR2),生長調節型α蛋白(CXCL1),轉錄因子AP-1(JUN),白介素1β(IL1B),血小板堿性蛋白(PPBP),基質金屬蛋白酶9(MMP9),toll樣受體2(TLR2)和高親和力免疫球蛋白ε受體亞基γ( FCER1G)。此外,相關分析的結果表明,這10個hub基因之間存在正相關。

圖片

小結

事實上,富集分析的本質就是聚類分析,即是把眾多基因根據它們承擔的功能進行分類,或者說承擔類似功能的基因更容易被分到一起,這也是基因集概念提出的初衷。但是需要注意的是,不同基因組合在不同生物背景下可能承擔不同的功能,因此也造就了用于描述不同功能的眾多基因集。特別是主要揭示免疫系統功能的C7數據集,其包含的主要基因集就是不同處理或者處理時間下基因的改變。

因此,在實際應用中,我們需要根據需要選擇相應的基因集的集合去篩選和我們研究對象相關的功能變化。從而將眾多差異基因進行歸類,最終將和假說相關的備選基因挑選出來進行后續實驗的驗證。

好啦,本期分享到這就結束啦,我們下期再會~~

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容