本內容為【科研私家菜】生信數據庫系列課程
R小鹽準備介紹那些小眾又重要的生信數據庫
讓我們跟著R小鹽來一起學習吧
你想要的R語言學習資料都在這里, 快來收藏關注【科研私家菜】
今天R小鹽介紹的數據庫是GSEA | MSigDB (gsea-msigdb.org)
01 MSigDB數據庫
分子簽名數據庫(The Molecular Signatures Database , MSigDB) 是一個用于GSEA軟件的注釋基因集的集合。GSEA, Gene Set Enrichment Analysis,即基因集富集分析,是由Broad Institute研究所的科學家提出的一種富集方法。
對于human的基因,從位置,功能,代謝途徑,靶標結合等多種角度出發,構建出了許多的基因集合,一個基因集合中就是具有相近位置或類似功能的許多基因的,Broad Institute研究所將它們構建的基因集合保存在MSigDB數據庫中。
該數據庫是不斷更新和完善的,目前最新版本為v7.5.1, 更新于2018年7月,共收錄了17810個基因集。
02 MSigDB
MSigDB將所有的基因集劃分為8大類別:
H: hallmark gene sets
該類別包含了由多個已知的基因集構成的超基因集,每個H類別的基因集都對應多個基礎的其他類別的基因集。比如HALLMARK_ADIPOGENESIS對應36個基因集。C1: positional gene sets
該類別包含人類每條染色體上的不同cytoband區域對應的基因集合。根據不同染色體編號進行二級分類。C2:curated gene sets
該類別包含了已知數據庫,文獻和專家支持的基因集信息,C3 : motif gene sets
該類別包含了miRNA靶基因和轉錄因子結合區域等基因集合,示意如下
無論是轉錄因子還是miRNA, 都是通過特定的motif序列來識別可以結合的區域,這些基因集合,本質上為具有相同motif序列的基因集。
- C4 : computational gene sets
該類別包含計算機軟件預測出來的基因集合,主要是和癌癥相關的基因,示意如下
- C5 : GO gene sets
該類別包含了Gene Ontology對應的基因集合。
- C6 : oncogenic signatures
該類別包含已知條件處理后基因表達量發生變化的基因。
- C7 : immunologic signatures
該類別包含了免疫系統功能相關的基因集合。
效果如下:
數據庫引用:
Subramanian, Tamayo, et al. (2005, PNAS)
Liberzon, et al. (2011, Bioinformatics)
Liberzon, et al. (2015, Cell Systems),
關注R小鹽,關注科研私家菜(VX_GZH: SciPrivate),有問題請聯系R小鹽。讓我們一起來學習 生物信息在線數據庫