材料:一個只有gene name的表格
需求:KEGG富集分析
背景
功能富集分析:按照功能分類,將功能相近的基因/蛋白分到一起,并關聯其生物學表型。
Gene Ontology (GO)一個數據庫,用以限定描述多種物種的基因/蛋白功能。注釋分三類,Molecular Function(MF),Biological Process(BP),Cellular Components(CC)。
KEGG也是個數據庫,其中最有名的就是他的pathway數據庫。
其代碼實現用Y叔的clusterprofiler及其簡單。(包的安裝和調用不寫了)
1.轉換ID,因為只有gene name,屬于“SYMBOL”所以先要將其轉化為"ENSEMBL",ENSG00XXXX格式
name_ID = bitr(genename,fromType = 'SYMBOL',toType = 'ENSEMBL',OrgDb =
? ? ? ? ? ? ? ? 'org.Hs.eg.db')
但是還不夠,后面enrichkegg,只支持'ENTREZID“格式的ID,比如’1244‘
所以再用一次bitr函數
name_ID_1 = bitr(genelist,fromType = 'ENSEMBL',toType = 'ENTREZID',OrgDb = 'org.Hs.eg.db')
2.kegg
KEGG <- enrichKEGG(gene = genelist,organism = 'hsa',keyType = 'kegg',pvalueCutoff = 0.05,pAdjustMethod = 'BH')
再寫出文件
write.csv(summary(KEGG),'summary_KEGG.csv',row.names = F)
?????????? OK,下一篇記錄結果分析和可視化。
補充:GO富集的代碼
ego = enrichGO(OrgDb="org.Hs.eg.db", gene = genelist,pvalueCutoff = 0.01,readable=TRUE)
write.csv(ego,"G-enrich_pri.csv",row.names =F)