數據庫概況:
人類疾病遺傳的基礎是精確醫學和藥物發現的核心。數據的可用性、碎片化、異構性和概念描述的不一致性是疾病機制研究必須克服的問題。DisGeNET (http://www.disgenet.org)正是為了幫助科研工作者克服這些障礙而開發的數據庫,它收集了大量與人類疾病(Mendelian, complex and environmental
diseases)相關的變異和基因。DisGeNET整合了公共數據庫、GWAS目錄、動物模型和科學文獻的數據。該數據庫的收據采用了統一的標準進行注釋。此外,還提供了一些原始指標,以幫助確定基因型與表型關系的優先級。可以通過web接口、Cytoscape應用程序、RDF SPARQL終端、幾種編程語言的腳本和R包訪問這些信息。DisGeNET是一個多功能平臺,可用于不同的研究目的包括特定的人類疾病的分子基礎及其并發癥的研究,致病基因特性分析,輔助構建藥物治療作用及藥物不良反應假說,疾病候選基因的驗證及文本挖掘方法的評價性能。目前最新版本的DisGeNET 為v6.0,它收錄了17,549 個基因和 24,166 個diseases, disorders, traits, 及clinical or abnormal human phenotypes 間的628,685 個gene-disease associations (GDAs)。同時還收錄了117,337 個變異和 10,358 個疾病、性狀、表型間的210,498 variant-disease associations (VDAs)。可以通過疾病、基因或變異進行搜索。此外,該平臺還提出了一個可以通過Cytoscape軟件運行的插件。
DisGeNET gene-disease association type ontology:
數據庫地址:
http://www.disgenet.org/home/
數據來源:
DisGeNET(v6.0)數據庫主要來源于已知數據庫和文獻的文本挖掘。該收錄的數據庫情況如下表所示:
了解數據庫更多信息:http://disgenet.org/dbinfo
數據庫使用:
DisGeNET數據庫有多重接口可供選擇:
1.Web Interface:
網頁版的數據庫主要包括檢索、瀏覽及數據下載等幾個主要功能。數據檢索包括以基因、變異及者疾病為檢索詞進行檢索:
瀏覽功能是以數據庫為單位進行的,主要包括疾病信息、對應基因/變異信息、疾病與基因/變異關系信息、證據信息。以HPO數據庫為例:
2.R Package :
在R上安裝disgenet2r包后后既可以進行DisGeNET數據庫搜索,也可以進行可視化。但值得注意的是該R包目前的基于?DisGeNET v5.0 (May, 2017)。安裝和使用示例如下:
安裝:
##The package,disgenet2rcan be installed usingdevtoolsfrom this repository:
library(devtools)
install_bitbucket("ibi_group/disgenet2r")
數據庫檢索示例:
##以基因為檢索詞進行檢索
library(disgenet2r)
gq<-disgenetGene(gene=3953,
????database="ALL",
????score=c(">",0.1))
##以疾病為檢索詞進行檢索
library(disgenet2r)
dq<-disgenetDisease(disease="umls:C0028754",
????database="ALL",
??? score=c('>',0.3))
3.Cytoscape App:
安裝:
需要預裝Cytoscape,然后直接在Cytoscape安裝DisGeNET插件。
使用:
打開Cytoscape,按如下順序操作:
Cytoscape App主要功能就是將DisGeNET的數據用networks的形式進行展示,主要包括以下幾個方面:
a)? ? ?Generate gene-disease networks:即基因和疾病間networks,例如HPO數據庫中Asthma基因和疾病間networks示例如下:
b)? ? ?Generate variant-disease networks:即變異和疾病間networks,示例如下
c)? ? ? Generate gene or disease projection networks:即基因-基因間或者疾病-疾病間的networks,示例如下
d)? ? ?Create networks by DisGeNET association type:即檢索某一關聯關系,并將其可視化,如下面的The CURATED GDA network for CausalMutations
e)? ? ? Create networks by disease class:對某一類疾病建立network,如下是營養代謝病network
f)? ? ?Create networks by gene, disease, or variant:可以不限制具體哪兩個(基因、變異、疾病)間的關系,而是通過過濾條件得到network,例如可以從以下幾方面進行過濾:Source, Association Type,Disease Class, Score。下面是以MECP為檢索詞,過濾條件為Mental Disorders時構建的網絡
g)? ? ?Multiple entity search in the DisGeNET App:包括匹配某一關鍵字的疾病或者基因的元素間構建網絡、基于基因/變異列表構建網絡。如下圖是CTD數據庫中Alzheimer相關的基因,包含了Alzheimer的所有亞型。
4.custom scripts
除了上述方法外還可以利用自己編寫的腳本(R、python、perl、)來進一步使用數據庫。例如可以利用以下腳本進行自動化:
a)? ? 基于R進行自動化:見“disGeNETAutomation.R”
b)? ?基于python進行自動化:見“disgenet-automation.py”
數據庫優勢:
The highlights of DisGeNETare the data integration, standardisation and a fine-grained tracking of theprovenance information
參考文獻:
DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze
gene-disease networks.2010 Bioinformatics. PMID: 20861032
DisGeNET: a discovery platform for the dynamical exploration of human
diseases and their genes.2015 Database. PMCID: 4397996. PMID: 25877637DOI:?10.1093/database/bav028
DisGeNET-RDF: harnessing the innovative power of the Semantic Web to
explore the genetic basis of diseases.2016 Bioinformatics. PMCID:4937199. PMID: 27153650.DOI:?10.1093/bioinformatics/btw214
DisGeNET: a comprehensive platform integrating information on human
disease-associated genes and variants.2017 Nucleic Acids Res. PMCID:5210640. PMID: 27924018. DOI:?10.1093/nar/gkw943