通路富集分析簡介

轉(zhuǎn)錄組分析傳送門

NGS手把手教學(xué)之零基礎(chǔ)RNA-seq轉(zhuǎn)錄組分析實踐,兩套方案(2022年最新)
通路富集分析簡介
GO富集詳解(更新中)
KEGG富集詳解(待更新)
Reactome富集詳解(待更新)
富集分析結(jié)果可視化大全(待更新)

目錄

  1. 常用的通路分析種類
    -- 1.1 GO功能分類
    -- 1.2 KEGG種類
  2. 常用的通路分析方法
    -- 2.1 過表現(xiàn)分析(Over Representation Analysis: ORA)
    -- 2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)

1. 常用的通路分析種類

1.1 GO功能分類

  1. Molecular Function(MF): 分子功能

基因產(chǎn)物的分子活動

  1. Cellular Componen(CC): 細(xì)胞結(jié)構(gòu)組成

該基因產(chǎn)物的細(xì)胞內(nèi)活動區(qū)域

  1. Biological Process(BP): 生物過程

由多個基因參與的通路或者大型的生物過程

1.2 KEGG種類

分為7大類

  1. Metabolism 代謝通路
  2. Genetic information processing 基因通路
  3. Environmental information processing 環(huán)境通路
  4. Cellular processes 細(xì)胞通路
  5. Organismal systems 組織通路
  6. Human diseases 人類疾病通路
  7. Drug development 藥物開發(fā)通路

2. 常用的通路分析方法

2.1 過表現(xiàn)分析(Over Representation Analysis: ORA)

最常見的例子就是通過轉(zhuǎn)錄組分析出來的有表達(dá)差異的基因(DEGs)來尋找已知的通路。計算公式就是一個超幾何概率分布:

Fig1

N: 數(shù)據(jù)庫里的所有基因數(shù)量

M: 已知的直接或間接和該通路有關(guān)的基因數(shù)量

n: DEGs的全體數(shù)量

k: 和該通路有關(guān)的DEGs數(shù)量

舉個栗子,假設(shè)在一次轉(zhuǎn)錄組測序中得到了17,980個有注釋的基因,其中57個被確定為有表達(dá)差異(DEGs)。在這57個DEGs里,有28個出現(xiàn)在了一條通路上,那么請計算一下這條通路是不小心隨機(jī)出現(xiàn)的還是另有圖謀的。

d <- data.frame(gene.not.interest=c(2613, 15310), gene.in.interest=c(28, 29))
row.names(d) <- c("In_category", "not_in_category")
d
##                 gene.not.interest gene.in.interest
## In_category                  2613               28
## not_in_category             15310               29

然后用Fisher’s exact test來驗證這個超幾何概率分布。

fisher.test(d, alternative = "greater")
## 
##  Fisher's Exact Test for Count Data
## 
## data:  d
## p-value = 1
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
##  0.110242      Inf
## sample estimates:
## odds ratio 
##  0.1767937

2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)

剛才的ORA法有一個明顯的缺陷,就是只關(guān)注了DEGs,但沒有明顯表達(dá)變化的基因真的就不起作用了嗎?明顯不是這樣的。GSEA的算法要比ORA復(fù)雜,也是近年來富集分析的主流。

GSEA的計算主有三個關(guān)鍵步驟。

  1. 計算富集分?jǐn)?shù)(Enrichment Score:ES)
  2. 計算ES的顯著水平
  3. 多重比較矯正

R語言包clusterProfiler, DOSE, meshesReactomePA都支持這個算法。

分析教程會后續(xù)詳細(xì)展開。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容