生信數據庫01-MSigDB

本內容為【科研私家菜】生信數據庫系列課程

R小鹽準備介紹那些小眾又重要的生信數據庫

讓我們跟著R小鹽來一起學習吧

你想要的R語言學習資料都在這里, 快來收藏關注【科研私家菜】

今天R小鹽介紹的數據庫是GSEA | MSigDB (gsea-msigdb.org)

01 MSigDB數據庫

分子簽名數據庫(The Molecular Signatures Database , MSigDB) 是一個用于GSEA軟件的注釋基因集的集合。GSEA, Gene Set Enrichment Analysis,即基因集富集分析,是由Broad Institute研究所的科學家提出的一種富集方法。


對于human的基因,從位置,功能,代謝途徑,靶標結合等多種角度出發,構建出了許多的基因集合,一個基因集合中就是具有相近位置或類似功能的許多基因的,Broad Institute研究所將它們構建的基因集合保存在MSigDB數據庫中。
該數據庫是不斷更新和完善的,目前最新版本為v7.5.1, 更新于2018年7月,共收錄了17810個基因集。



02 MSigDB

MSigDB將所有的基因集劃分為8大類別:

  1. H: hallmark gene sets
    該類別包含了由多個已知的基因集構成的超基因集,每個H類別的基因集都對應多個基礎的其他類別的基因集。比如HALLMARK_ADIPOGENESIS對應36個基因集。

  2. C1: positional gene sets
    該類別包含人類每條染色體上的不同cytoband區域對應的基因集合。根據不同染色體編號進行二級分類。

  3. C2:curated gene sets
    該類別包含了已知數據庫,文獻和專家支持的基因集信息,

  4. C3 : motif gene sets

該類別包含了miRNA靶基因和轉錄因子結合區域等基因集合,示意如下

無論是轉錄因子還是miRNA, 都是通過特定的motif序列來識別可以結合的區域,這些基因集合,本質上為具有相同motif序列的基因集。

  1. C4 : computational gene sets

該類別包含計算機軟件預測出來的基因集合,主要是和癌癥相關的基因,示意如下

  1. C5 : GO gene sets

該類別包含了Gene Ontology對應的基因集合。

  1. C6 : oncogenic signatures

該類別包含已知條件處理后基因表達量發生變化的基因。

  1. C7 : immunologic signatures

該類別包含了免疫系統功能相關的基因集合。

效果如下:

數據庫引用:

Subramanian, Tamayo, et al. (2005, PNAS)
Liberzon, et al. (2011, Bioinformatics)
Liberzon, et al. (2015, Cell Systems),


關注R小鹽,關注科研私家菜(VX_GZH: SciPrivate),有問題請聯系R小鹽。讓我們一起來學習 生物信息在線數據庫

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容