轉(zhuǎn)錄組分析傳送門
NGS手把手教學(xué)之零基礎(chǔ)RNA-seq轉(zhuǎn)錄組分析實踐,兩套方案(2022年最新)
通路富集分析簡介
GO富集詳解(更新中)
KEGG富集詳解(待更新)
Reactome富集詳解(待更新)
富集分析結(jié)果可視化大全(待更新)
目錄
- 常用的通路分析種類
-- 1.1 GO功能分類
-- 1.2 KEGG種類 - 常用的通路分析方法
-- 2.1 過表現(xiàn)分析(Over Representation Analysis: ORA)
-- 2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)
1. 常用的通路分析種類
1.1 GO功能分類
- Molecular Function(MF): 分子功能
基因產(chǎn)物的分子活動
- Cellular Componen(CC): 細(xì)胞結(jié)構(gòu)組成
該基因產(chǎn)物的細(xì)胞內(nèi)活動區(qū)域
- Biological Process(BP): 生物過程
由多個基因參與的通路或者大型的生物過程
1.2 KEGG種類
分為7大類
- Metabolism 代謝通路
- Genetic information processing 基因通路
- Environmental information processing 環(huán)境通路
- Cellular processes 細(xì)胞通路
- Organismal systems 組織通路
- Human diseases 人類疾病通路
- Drug development 藥物開發(fā)通路
2. 常用的通路分析方法
2.1 過表現(xiàn)分析(Over Representation Analysis: ORA)
最常見的例子就是通過轉(zhuǎn)錄組分析出來的有表達(dá)差異的基因(DEGs)來尋找已知的通路。計算公式就是一個超幾何概率分布:
Fig1
N: 數(shù)據(jù)庫里的所有基因數(shù)量
M: 已知的直接或間接和該通路有關(guān)的基因數(shù)量
n: DEGs的全體數(shù)量
k: 和該通路有關(guān)的DEGs數(shù)量
舉個栗子,假設(shè)在一次轉(zhuǎn)錄組測序中得到了17,980個有注釋的基因,其中57個被確定為有表達(dá)差異(DEGs)。在這57個DEGs里,有28個出現(xiàn)在了一條通路上,那么請計算一下這條通路是不小心隨機(jī)出現(xiàn)的還是另有圖謀的。
d <- data.frame(gene.not.interest=c(2613, 15310), gene.in.interest=c(28, 29))
row.names(d) <- c("In_category", "not_in_category")
d
## gene.not.interest gene.in.interest
## In_category 2613 28
## not_in_category 15310 29
然后用Fisher’s exact test來驗證這個超幾何概率分布。
fisher.test(d, alternative = "greater")
##
## Fisher's Exact Test for Count Data
##
## data: d
## p-value = 1
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 0.110242 Inf
## sample estimates:
## odds ratio
## 0.1767937
2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)
剛才的ORA法有一個明顯的缺陷,就是只關(guān)注了DEGs,但沒有明顯表達(dá)變化的基因真的就不起作用了嗎?明顯不是這樣的。GSEA的算法要比ORA復(fù)雜,也是近年來富集分析的主流。
GSEA的計算主有三個關(guān)鍵步驟。
- 計算富集分?jǐn)?shù)(Enrichment Score:ES)
- 計算ES的顯著水平
- 多重比較矯正
R語言包clusterProfiler, DOSE, meshes及 ReactomePA都支持這個算法。
分析教程會后續(xù)詳細(xì)展開。