Gene ontology enrichment analysis可能是現在生物信息學里面最常用的分析。以前我一般都是用DAVID這個在線工具來做。但是用DAVID有三個主要問題
DAVID的注釋不全,很多基因都沒有更新的注釋信息
這個是DAVID這個軟件的硬傷DAVID的結果只是列表,并沒有好的可視化方式
這樣導致每次做基因富集分析的時候都需要去挑選冗余Gene ontology,并且費時耗力的去做文章中需要的可視化圖DAVID只支撐3000個GENE,更多的就罷工了
已經記不得有多少次我的GENE LIST中有3000多個基因,然后還要去做隨機篩選的內心小崩潰了
這些問題,在clusterprofiler這個包中都得到了很好的解決。
下面總結下clusterprofiler包的主要功能,參考資料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html
gene ID轉換
支持orgdb的所有物種,以及orgdb所包含的所有gene ID種類groupGO
函數來將列表中的基因根據相對于的gene ontology進行分類enrichGO
函數來做gene ontology富集分析gseGO
函數來做gene set enrichment analysis
為何要用gene set enrichment analysis呢?因為一般做differential expressed genes analysis找出的gene都是有著統計顯著差別的單個基因,但是有些基因是屬于同一類的(gene set),它們單個的變化并沒有那么大,但是這同一類基因都發生了一些變化。這樣,當做DEG分析的時候,找不出這些基因,但是gsea分析可以把這種差異找出來。
這里需要注意一個問題。用這個函數的時候,如果要得到典型的gsea的running enrichment score的圖,則必須指定geneSetID。這就需要先找出現在已經富集了幾個geneSet,然后一個接一個的畫出。
enrichKEGG
函數來做基因的pathway富集分析完善強大的可視化函數選擇,包括了
barplot
,dotplot
,emapplot
,cnetplot
,gseaplot
,browseKEGG
compareCluster
用于比較不同gene list的gene ontology富集情況