上一步差異表達(dá)分析拿到了表達(dá)譜【比如當(dāng)用藥物處理之后,實(shí)驗(yàn)組中哪些基因的表達(dá)發(fā)生了變化】
所謂基因的功能其實(shí)是基因產(chǎn)物的功能
GO數(shù)據(jù)庫(kù) Gene Ontology
允許在各種水平查詢基因產(chǎn)物的特性
解決生物學(xué)定義又混亂的現(xiàn)象,是的各種數(shù)據(jù)庫(kù)中基因產(chǎn)物功能描述相一致,使得在不同生物數(shù)據(jù)庫(kù)中的查詢具有極高的一致性
image.png
w/1240)
-
一個(gè)基因多種功能
栗子:TP53
image.png
-
生物學(xué)功能的多種描述
image.png
image.png
Ontology 的結(jié)構(gòu)
image.png
image.png
GO term 之間的關(guān)系
- is a
image.png
- part of
image.png
- is a +part of
image.png
- 調(diào)節(jié)控制關(guān)系以及推導(dǎo)
image.png
KEGG數(shù)據(jù)庫(kù)(京都基因和基因組百科全書(shū))
image.pngimage.pngimage.png
符號(hào)的含義
image.pngID意思
image.png
功能注釋實(shí)操
-
workflow
image.png
例子1:查看單個(gè)疾病風(fēng)險(xiǎn)基因注釋到哪些通路
-
KEGG
- 神經(jīng)膠質(zhì)瘤(Glioma)風(fēng)險(xiǎn)基因(NCBI-GeneID :1956),該基因編碼表皮生長(zhǎng)因子受體(EGFR)
- 進(jìn)入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html
image.png
image.png
從KEGG官網(wǎng)點(diǎn)擊pathway進(jìn)入
- 選擇Organism-specific為:hsa
- 選擇Optional use of outside類(lèi)型為:NCBI-GeneID
-
輸入EGFR基因(如格式:1956 red)
image.png
從左到右的三列依次是:基因名,通路名字,物種名稱
image.png
綠色的方框表示人類(lèi)所特有的基因
image.png
-
GO
-
神經(jīng)膠質(zhì)瘤(Glioma)風(fēng)險(xiǎn)基因(NCBI-GeneID :1956),該基因編碼表皮生長(zhǎng)因子受體(EGFR)
三個(gè)板塊
image.png
- 進(jìn)入GO界面http://www.geneontology.org/
- 輸入EGFR基因(格式: EGFR )
- 選擇Gene Product
-
點(diǎn)擊Go
IEA是經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證
IDA類(lèi)型是計(jì)算機(jī)預(yù)測(cè)的
例子2:查看多個(gè)疾病風(fēng)險(xiǎn)基因注釋到哪些通路(適用于復(fù)雜疾病)
-
從通過(guò)差異表達(dá)分析獲得airway數(shù)據(jù)集trt和untrt間差異表達(dá)基因集合:共640個(gè)基因
image.png 進(jìn)入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html
選擇Organism-specific為:hsa
選擇Optional use of outside類(lèi)型為:NCBI-GeneID
輸入差異表達(dá)基因,格式:19 red
368 red
點(diǎn)擊Exec
功能富集分析
原因
image.png
統(tǒng)計(jì)學(xué)方法image.png
結(jié)果可視化
#### 第一步,從org.Hs.eg.db提取ENSG的ID 和GI號(hào)對(duì)應(yīng)關(guān)系
keytypes(org.Hs.eg.db)
# bitr in clusterProfiler
allID <- bitr(gene_all, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
degID <- bitr(DEG, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
head(degID)
# KEGG analysis----
enrich <- enrichKEGG(gene =degID[,2],organism='hsa',universe=allID[,2],pvalueCutoff=1,qvalueCutoff=1)
##enrichKEGG只有一句話
##背景基因值的選擇會(huì)影響最后的P值
GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])))
BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2]) ))
enrich_factor <- GeneRatio/BgRatio
out <- data.frame(enrich$ID,enrich$Description,enrich$GeneRatio,enrich$BgRatio,round(enrich_factor,2),enrich$pvalue,enrich$qvalue,enrich$geneID)
colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
write.table(out,"../Analysis/deg_analysis/trut_VS_untrt_enrich_KEGG.xls",row.names = F,sep="\t",quote = F)
out_sig0.05 <- out[out$qvalue<0.05,] ##挑選過(guò)程
# barplot
bar <- barplot(enrich,showCategory=10,title="KEGG Pathway",colorBy="p.adjust")
bar
image.png