我們有時(shí)候很關(guān)心基因所在的pathway、上下調(diào)控以及一堆基因富集到的pathway,再或者同源基因等信息,KEGG數(shù)據(jù)庫(kù)也算是目前(注釋?zhuān)┏S玫拿餍菙?shù)據(jù)庫(kù)
KEGG:京都基因和基因組百科全書(shū):KEGG項(xiàng)目于1995年5月在日本教育,科學(xué),體育和文化部的人類(lèi)基因組計(jì)劃下啟動(dòng)(2)[計(jì)算資源由京都大學(xué)化學(xué)研究所超級(jí)計(jì)算機(jī)實(shí)驗(yàn)室提供。]。KEGG和相關(guān)軟件工具中的所有數(shù)據(jù)都作為日本GenomeNet服務(wù)的一部分提供(3)。KEGG由三個(gè)數(shù)據(jù)庫(kù)組成:用于表示相互作用分子網(wǎng)絡(luò)的高階函數(shù)的pathway,用于收集所有完全測(cè)序的基因組和一些部分基因組的基因目錄的GENES,以及用于化學(xué)品收集的LIGAND(4)細(xì)胞中的化合物,酶分子和酶促反應(yīng)。KEGG系統(tǒng)的整體架構(gòu)與之前報(bào)道的基本相同(5)。用戶(hù)可以從通路(功能)信息開(kāi)始自上而下進(jìn)入KEGG系統(tǒng),或者從KEGG目錄頁(yè)面的基因組信息開(kāi)始自下而上進(jìn)入。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/
產(chǎn)生背景:如何借助計(jì)算機(jī)全面的展示細(xì)胞和生物所包含的生物學(xué)信息室后基因組時(shí)代的重大挑戰(zhàn)之一??茖W(xué)家期望能夠根據(jù)基因組中的信息,用計(jì)算機(jī)計(jì)算或者預(yù)測(cè)出的比價(jià)復(fù)雜的細(xì)胞中的通路或者生物的復(fù)雜行為,出于這個(gè)目的,日本京都大學(xué)生物信息學(xué)中心的Kanehisa實(shí)驗(yàn)室于1995年建立了生物信息學(xué)數(shù)據(jù)庫(kù)KEGG。現(xiàn)在是基因組測(cè)序和其他高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的大規(guī)模分子數(shù)據(jù)集的整合和解釋的重要參考知識(shí)庫(kù)。
內(nèi)涵:KEGG是一個(gè)數(shù)據(jù)庫(kù)資源,用于從基因組和分子水平信息中了解生物系統(tǒng)的高級(jí)功能和效用,例如細(xì)胞,生物體和生態(tài)系統(tǒng)。它是生物系統(tǒng)的計(jì)算機(jī)表示,由基因和蛋白質(zhì)(基因組信息)和化學(xué)物質(zhì)(化學(xué)信息)的分子構(gòu)建塊組成,它們與相互作用,反應(yīng)和關(guān)系網(wǎng)絡(luò)的分子接線(xiàn)圖的知識(shí)相結(jié)合(系統(tǒng)信息) )。它還包含疾病和藥物信息(健康信息)作為生物系統(tǒng)的擾動(dòng)。https://www.genome.jp/kegg/kegg1a.html
特點(diǎn):人工創(chuàng)建了一個(gè)知識(shí)庫(kù),基于使用一種計(jì)算的形式捕捉和組織實(shí)驗(yàn)室得到的知識(shí)而形成的系統(tǒng)功能知識(shí)庫(kù)。它是一個(gè)生物系統(tǒng)的計(jì)算機(jī)模擬。(https://www.kegg.jp/kegg/)
KEGG具有強(qiáng)大的圖形功能,來(lái)介紹眾多的代謝途徑以及各途徑之間的關(guān)系。2019.8月統(tǒng)計(jì)
- genes數(shù)據(jù)庫(kù)里:儲(chǔ)存基因組信息,包括完整和部分‘’測(cè)序的基因組序列;[從ncbi的GeneBank中搜集而來(lái)]
- pathway數(shù)據(jù)庫(kù):儲(chǔ)存更高級(jí)的功能信息
- LIGAND數(shù)據(jù)庫(kù):包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息
- LinkDB:鏈接世界上其他一些大型生物信息學(xué)數(shù)據(jù)庫(kù)
下圖來(lái)自于文獻(xiàn):https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/
KEGG數(shù)據(jù)庫(kù)目前統(tǒng)計(jì)的數(shù)據(jù)
https://www.kegg.jp/kegg/docs/statistics.html,能看到有536條pathway。406個(gè)module。
KEGG Orthology 數(shù)據(jù)庫(kù)
KEGG建立了KEGG直系同源系統(tǒng)(the KEGG Orthology(KO) system) ,該系統(tǒng)吧分析網(wǎng)絡(luò)的相關(guān)信息連接到基因組在中,從而發(fā)展和促進(jìn)了跨物種注釋流程。因此在KEGG 數(shù)據(jù)庫(kù)中,直接存儲(chǔ)分子功能的就是KEGG Orthology 數(shù)據(jù)庫(kù)。
- KEGG Orthology 簡(jiǎn)稱(chēng)KO,該數(shù)據(jù)庫(kù)中的每一條記錄用K number 唯一標(biāo)識(shí)。基于同源基因具有相似功能的假設(shè),把基因的功能進(jìn)行了擴(kuò)充。對(duì)于某個(gè)物種中功能研究的很清楚的基因,在不同的物種間搜尋該基因的同源基因,將這些同源基因定義為一個(gè)orthology, 用該基因的功能作為該orthology 的功能;這樣就將對(duì)于不同物種基因功能的研究都利用起來(lái),提供了一個(gè)全面的研究基因功能的數(shù)據(jù)庫(kù)。(https://cloud.tencent.com/developer/news/119170)
- 特征:他是蛋白質(zhì)或酶的一個(gè)分類(lèi)體系,序列高度相似,并且在同一條通路上有相似功能的蛋白質(zhì)被歸為一組,然后被打上KO(或K)標(biāo)簽。
- 代謝通路圖可以找到Ortholog table表:同源基因
KEGG的pathway
根據(jù)相關(guān)知識(shí)手繪的,這里的手繪的意思可能是指人工以特定的語(yǔ)言格式來(lái)確定通路各組件的聯(lián)系。
基因組信息主要是從NCBI等數(shù)據(jù)庫(kù)中得到的,除了有完整的基因序列外,還有沒(méi)完成的草圖。
ko編號(hào)就是一個(gè)pathway,例如ko04722,這個(gè)通路不分物種,相當(dāng)于所有物種這一通路的并集
K編號(hào)表示一個(gè)基因,例如K02582,是ko通路中的基本單元,某一K編號(hào)代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統(tǒng)稱(chēng)。
pathway,module 等數(shù)據(jù)庫(kù)都是建立在KO數(shù)據(jù)庫(kù)的基礎(chǔ)上的,KO可以說(shuō)是KEGG中處于核心地位的一個(gè)數(shù)據(jù)庫(kù),所以理解KO數(shù)據(jù)庫(kù)就特別的重要。
對(duì)于一個(gè)具體的KO來(lái)說(shuō),在這個(gè)KO下是一系列基因,這些基因可以來(lái)源于不同的物種,但是具有相同的功能。以K00161為例,對(duì)應(yīng)的同源基因的列表可以從KEGG的官網(wǎng)查詢(xún)得到。
pathway的五種類(lèi)型:
僅僅第一種參考通路是手動(dòng)畫(huà)出來(lái)的,其他的通路圖都是通過(guò)計(jì)算產(chǎn)生的。pathway中的每一個(gè)框或線(xiàn)都對(duì)應(yīng)一個(gè)或多個(gè)K編號(hào)、EC編號(hào)及R編號(hào)。
- map - Reference pathway:對(duì)于代謝相關(guān)的通路,在reference pathway中,一個(gè)點(diǎn)同時(shí)表示一個(gè)基因,這個(gè)基因編碼的酶或這個(gè)酶參加的反應(yīng)
- ko - Reference pathway(KO):KO通路中的點(diǎn)只表示基因
- ec - Reference pathway(EC):EC通路中的點(diǎn)只表示相關(guān)的酶
- rn - Reference pathway(Reaction):Reaction通路中的點(diǎn)只表示該點(diǎn)參與的某個(gè)反應(yīng)、反應(yīng)物及反應(yīng)類(lèi)型
- org - Organism-specific pathway map:對(duì)于所有的代謝和非代謝通路,K編號(hào)都被認(rèn)為是基因的標(biāo)識(shí)符,這個(gè)標(biāo)識(shí)符在每一個(gè)物種中對(duì)應(yīng)該物種中的某個(gè)基因,從而得到物種特異性的pathway。
KEGG主頁(yè)可以搜索的類(lèi)型如:
- map00010
- ko00010
- ec00010
- rn00010
- hsa00010
KEGG ftp
KEGG(http://www.genome.ad.jp/kegg/)是一套數(shù)據(jù)庫(kù)和相關(guān)軟件,用于從基因組信息中理解和模擬細(xì)胞或生物體的高階功能行為。首先,KEGG計(jì)算機(jī)負(fù)責(zé)各種細(xì)胞過(guò)程的蛋白質(zhì)相互作用網(wǎng)絡(luò)(PATHWAY數(shù)據(jù)庫(kù))和化學(xué)反應(yīng)(LIGAND數(shù)據(jù)庫(kù))的數(shù)據(jù)和知識(shí)。其次,KEGG嘗試為基因組完全測(cè)序的所有生物重建蛋白質(zhì)相互作用網(wǎng)絡(luò)(GENES和SSDB數(shù)據(jù)庫(kù))。第三,KEGG可用作功能基因組學(xué)(EXPRESSION數(shù)據(jù)庫(kù))和蛋白質(zhì)組學(xué)(BRITE數(shù)據(jù)庫(kù))實(shí)驗(yàn)的參考知識(shí)。[https://www.ncbi.nlm.nih.gov/pubmed/12539951]
京都基因和基因組百科全書(shū)(KEGG)是從基因組角度理解生物功能的生物信息學(xué)資源。它是一種多物種,綜合資源,由基因組學(xué),化學(xué)和網(wǎng)絡(luò)信息組成,交叉引用眾多外部數(shù)據(jù)庫(kù),包含一整套構(gòu)建模塊(基因和分子)和接線(xiàn)圖(生物途徑)來(lái)表示細(xì)胞功能。KEGG由一套數(shù)據(jù)庫(kù)組成:PATHWAY,GENES / Sequence Similarity Database(SSDB),信息傳輸和表達(dá)中的生物分子關(guān)系(BRITE),以及LIGAND,它是COMPOUND,DRUG,GLYCAN,REACTION,REPAIR和酶。最近在KEGG中添加了兩個(gè)新的數(shù)據(jù)庫(kù):DGENES(用于草圖基因組)和EGENES(用于表達(dá)序列標(biāo)簽[EST]數(shù)據(jù))。EGENES是一個(gè)知識(shí)庫(kù)系統(tǒng),用于有效分析生物特異性EST,包括公眾可獲得的植物EST。EGENES將基因組信息與更高階的功能信息鏈接在一個(gè)數(shù)據(jù)庫(kù)中。存儲(chǔ)在EGENES中的基因組信息是EST重疊群的集合,通過(guò)組裝公共EST產(chǎn)生。[https://www.ncbi.nlm.nih.gov/pubmed/18287706]
后基因組時(shí)代的一個(gè)重大挑戰(zhàn)是細(xì)胞和生物體的完整計(jì)算機(jī)表示,這將使得能夠從基因組信息計(jì)算預(yù)測(cè)細(xì)胞過(guò)程的更高水平復(fù)雜性和生物體行為。為此,我們一直在開(kāi)發(fā)一種基于知識(shí)的網(wǎng)絡(luò)預(yù)測(cè)方法,即基于基因組中的一組完整基因,預(yù)測(cè)負(fù)責(zé)各種細(xì)胞過(guò)程的蛋白質(zhì)相互作用網(wǎng)絡(luò)。KEGG在http://www.genome.ad.jp/kegg/是參考知識(shí)庫(kù),整合了當(dāng)前關(guān)于分子相互作用網(wǎng)絡(luò)的知識(shí),如路徑和復(fù)合物(PATHWAY數(shù)據(jù)庫(kù)),關(guān)于基因組計(jì)劃產(chǎn)生的基因和蛋白質(zhì)的信息(GENES / SSDB / KO數(shù)據(jù)庫(kù))和有關(guān)生化化合物和反應(yīng)的信息(COMPOUND / GLYCAN / REACTION數(shù)據(jù)庫(kù))。這三種類(lèi)型的數(shù)據(jù)庫(kù)實(shí)際上代表了三個(gè)圖形對(duì)象,稱(chēng)為蛋白質(zhì)網(wǎng)絡(luò),基因宇宙和化學(xué)宇宙。正在進(jìn)行新的努力以計(jì)算和手動(dòng)抽取關(guān)于KO(KEGG Orthology)數(shù)據(jù)庫(kù)中的直向同源簇的知識(shí),并收集和分析GLYCAN數(shù)據(jù)庫(kù)中的碳水化合物結(jié)構(gòu)。[https://www.ncbi.nlm.nih.gov/pubmed/14681412]
京都基因和基因組百科全書(shū)(KEGG,http://www.genome.jp/kegg/或http://www.kegg.jp/)是一種整合基因組學(xué),化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫(kù)資源。特別是,來(lái)自完全測(cè)序的基因組的基因目錄與細(xì)胞,生物體和生態(tài)系統(tǒng)的更高水平的系統(tǒng)功能相關(guān)聯(lián)。通過(guò)以可計(jì)算的形式捕獲和組織實(shí)驗(yàn)知識(shí),已經(jīng)進(jìn)行了大量努力以手動(dòng)創(chuàng)建這種系統(tǒng)功能的知識(shí)庫(kù); 即,以KEGG途徑圖,BRITE功能層次結(jié)構(gòu)和KEGG模塊的形式。還通過(guò)KEGG Orthology系統(tǒng)不斷努力開(kāi)發(fā)和改進(jìn)用于將基因組與分子網(wǎng)絡(luò)連接的跨物種注釋程序。在這里,我們報(bào)告KEGG Mapper,KEGG PATHWAY的工具集合,BRITE和MODULE映射,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的集成和解釋。我們還報(bào)告了KEGG繪圖程序的變體,以擴(kuò)展知識(shí)庫(kù),其中不同類(lèi)型的數(shù)據(jù)和知識(shí),例如疾病基因和藥物靶標(biāo),被整合為KEGG分子網(wǎng)絡(luò)的一部分。最后,我們描述了KEGG內(nèi)容的最新增強(qiáng),特別是在實(shí)踐和社會(huì)中使用的疾病和藥物信息的整合,以支持轉(zhuǎn)化生物信息學(xué)。[https://www.ncbi.nlm.nih.gov/pubmed/22080510]