用clusterprofiler包來做基因富集性分析

Gene ontology enrichment analysis可能是現在生物信息學里面最常用的分析。以前我一般都是用DAVID這個在線工具來做。但是用DAVID有三個主要問題

  1. DAVID的注釋不全,很多基因都沒有更新的注釋信息
    這個是DAVID這個軟件的硬傷

  2. DAVID的結果只是列表,并沒有好的可視化方式
    這樣導致每次做基因富集分析的時候都需要去挑選冗余Gene ontology,并且費時耗力的去做文章中需要的可視化圖

  3. DAVID只支撐3000個GENE,更多的就罷工了
    已經記不得有多少次我的GENE LIST中有3000多個基因,然后還要去做隨機篩選的內心小崩潰了

這些問題,在clusterprofiler這個包中都得到了很好的解決。

下面總結下clusterprofiler包的主要功能,參考資料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html

  1. gene ID轉換
    支持orgdb的所有物種,以及orgdb所包含的所有gene ID種類

  2. groupGO 函數來將列表中的基因根據相對于的gene ontology進行分類

  3. enrichGO 函數來做gene ontology富集分析

  4. gseGO 函數來做gene set enrichment analysis

為何要用gene set enrichment analysis呢?因為一般做differential expressed genes analysis找出的gene都是有著統計顯著差別的單個基因,但是有些基因是屬于同一類的(gene set),它們單個的變化并沒有那么大,但是這同一類基因都發生了一些變化。這樣,當做DEG分析的時候,找不出這些基因,但是gsea分析可以把這種差異找出來。

這里需要注意一個問題。用這個函數的時候,如果要得到典型的gsea的running enrichment score的圖,則必須指定geneSetID。這就需要先找出現在已經富集了幾個geneSet,然后一個接一個的畫出。

  1. enrichKEGG 函數來做基因的pathway富集分析

  2. 完善強大的可視化函數選擇,包括了barplot, dotplot, emapplot, cnetplot, gseaplot, browseKEGG

  3. compareCluster 用于比較不同gene list的gene ontology富集情況

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容