拜讀KEGG作者的文獻:KEGG network的相關陳述

在ncbi上搜索 kegg && Kanehisa M,這個作者簡直不要太牛了哦,就一個KEGG數據庫,發了好多文章啊,目前KEGG有18個數據庫,每一個數據庫一篇的話,呵呵噠。而且好幾篇10+。想認真了解KEGG,拜讀他的文獻吧。很多都講的很清楚,我隨便就軟件翻譯了一篇他的文獻,是2019剛出爐的。湊合看吧~

1區 11.147 Nucleic Acids Res. 2019 Jan 8;47(D1):D590-D595. doi: 10.1093/nar/gky962.

New approach for understanding genome variations in KEGG.

Kanehisa M1, Sato Y2, Furumichi M1, Morishima K1, Tanabe M1.

Author information

  • 1 Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011, Japan.
  • 2 Social ICT Solutions Department, Fujitsu Kyushu Systems Ltd., Hakata-ku, Fukuoka 812-0007, Japan.

摘要

KEGG(京都基因和基因組百科全書; https://www.kegg.jp/https://www.genome.jp/kegg/)是基因組序列和其他高通量數據的生物解釋的參考知識庫。它是一個綜合數據庫,包括三個通用類別的系統信息,基因組信息和化學信息,以及另一類特定于人類的健康信息KEGG途徑圖,BRITE層次結構和KEGG模塊已經被開發為具有功能性直向同源物的KEGG Orthology節點的通用分子網絡,使得KEGG途徑作圖和其他程序可以應用于任何細胞生物體。然而,遺憾的是,這種通用方法不足以用于健康信息類別中的知識表示,其中必須考慮人類基因組的變異,尤其是與疾病相關的變異。從而,我們引入了一種新方法,其中人類基因變體明確地納入我們在最近發布的KEGG NETWORK數據庫中稱為“網絡變體”。這允許積累關于疾病相關的擾亂分子網絡的知識,不僅由基因變體引起,而且由病毒和其他病原體,環境因素和藥物引起。我們期望KEGG NETWORK將成為另一個參考知識庫,用于基本了解疾病機制和臨床測序和藥物開發的實際應用。

KEGG:綜合數據庫;
三類通用類別:
    + 系統信息
    + 基因組信息
    + 化學信息
那么進入官網后,你會發現,如今的KEEG表分成4個大框的類別:增加
    + 健康信息
[看圖1,還有釋放數據庫的開始時間]

KEGG NETWORK數據庫:網絡圖-突變
    積累關于疾病相關的擾亂分子網絡的知識,不僅由基因變體引起,而且由病毒和其他病原體,環境因素和藥物引起。

介紹

? 保護和變異是不同層次的生物系統的固有特征。KEGG(京都基因和基因組百科全書)數據庫已被開發用于理解細胞生物水平上基因和基因組的保守和變異。特別地,已經開發了用于表示基因和蛋白質的保守特征的功能性直向同源物的KO(KEGG Orthology)系統,并且已經開發了作為KO節點網絡繪制的KEGG途徑圖譜的參考知識庫,用于表示細胞過程的保守特征。和有機體的行為。該通用結構允許KEGG作圖,一旦基因用KO標識符注釋,就可以從其基因組中的基因集自動重建特定生物的途徑。結果是,這種通用方法的缺點是由于智人被簡單地視為存儲在KEGG中的許多物種之一。隨著KEGG數據庫的健康信息類別的擴展,一種新方法已成為更好地整合人類基因組,人類途徑,人類疾病和藥物的必要條件(1)。因此,我們現在明確地將單一種類的人類的保守和變異納入其中**。

**已經開發了用于表示基因和蛋白質的保守特征的功能性直向同源物的KO(KEGG Orthology)系統**:以KO作為節點,pathway包含所有物種的信息;

    因此,有必要單獨把人類的基因組、pathway、疾病、藥物等整合起來,納入單一種類的人類的煲粥和變異。

? 在KEGG中,疾病被認為是由遺傳和環境因素的各種擾動引起的分子網絡的擾動狀態,以及被視為不同類型的擾動的藥物(2)。然而,迄今為止,這種擾動并未得到很好的體現。例如,癌癥和其他疾病相關基因中的已知遺傳改變在疾病途徑圖中以紅色標記,但由于它們被繪制為KO節點,因此只有參考人類基因數據與這些紅色標記的節點相關聯。利用本文中描述的新方法,擾動分子網絡的實際數據集在新的KEGG NETWORK數據庫中呈現,該數據庫是網絡變體的集合,例如由基因變體,病毒和其他因素引起的信號網絡的變體。

利用本文中描述的新方法,擾動分子網絡的實際數據集在新的KEGG NETWORK數據庫中呈現,該數據庫是網絡變體的集合,例如
    由基因變體,病毒和其他因素引起的信號網絡的變體。

KEGG概述

? 1995年12月,KEGG的第一個版本只提供了四個數據庫:PATHWAY,GENES,COMPOUND和ENZYME。如圖1所示,KEGG現在由四個類別的十八個數據庫組成,但基本概念保持不變分別從PATHWAY,GENES和COMPOUND數據庫擴展了三個通用類別的系統、基因組和化學信息,并引入了額外的人類特定健康信息類別,以使KEGG在實踐中更有用。通路映射的想法首先通過ENZYME的EC編號系統實現,其中KEGG代謝途徑圖用EC編號節點繪制,并且基因組中的酶基因被指定EC編號。然而,基于EC的途徑映射僅持續了5年,EC編號被直系同源ID取代,后者成為KOs。自2003年以來,路徑映射由KO系統執行,其中所有KEGG途徑圖是用KO節點創建的,并且基因組中的基因被分配了KO標識符(K個編號)。EC編號通過KO系統間接分配給各個基因?;贙O的映射也適用于BRITE層次結構文件和KEGG模塊。

最初的KEGG就四個數據庫:PATHWAY,GENES,COMPOUND和ENZYME
現在的KEGG:
    4個類別的18個數據庫組成,
    但基本概念不變,分別從PATHWAY,GENES和COMPOUND數據庫擴展了三個通用類別的系統、基因組和化學信息。
    并引入了額外的人類特定健康信息類別,以使KEGG在實踐中更有用。
圖 1

~KEGG由四個類別的十八個數據庫組成,除了計算生成的SSDB之外,它們都是手動策劃的?;瘜W信息類別中的數據庫統稱為KEGG LIGAND。健康信息類別中的數據庫以及兩個外部數據庫,從JAPIC數據庫(http://www.japic.or.jp)獲得的日本藥物標簽和與DailyMed數據庫鏈接的FDA藥物標簽(https://dailymed.nlm.nih.gov/),統稱為KEGG MEDICUS。~

圖說明數據庫之間的關系和施放時間?。?!

? 2017年12月,KEGG NETWORK數據庫與KEGG VARIANT的相關數據庫一起發布。兩者都是人類特定的數據庫,并構成健康信息類別的一部分(圖1)。KEGG NETWORK是我們首次嘗試明確考慮單一物種內的基因組變異。雖然我們只考慮與人類疾病和藥物相關的變異,但KEGG NETWORK中使用的方法可以應用于任何物種的任何變異。在以下部分中,我們將介紹KEGG NETWORK和過去兩年的其他發展。有關KEGG數據庫的更完整描述可以在2017年核酸研究數據庫問題(1)的前一篇文章中找到。

2017年12月,KEGG NETWORK數據庫與KEGG VARIANT的相關數據庫一起發布。兩者都是人類特定的數據庫,并構成健康信息類別的一部分。

KEGG NETWORK

從基因變體到網絡變體

? 圖2說明了KEGG NETWORK背后的概念。與用于了解細胞生物保護和變異的通用KEGG數據庫相比,KEGG NETWORK專注于人類智能,提供更詳細的圖片,特別是在網絡 - 疾病關聯方面理解人類疾?。?))。在KEGG PATHWAY數據庫中,基于KO的參考途徑是從已發表的文獻手動創建的,并且計算生成所有生物特異性途徑的實例。KEGG NETWORK數據庫是網絡元素的集合,其中參考和變體網絡元素都是根據已發布的文獻手動創建的。參考網絡元件由人類基因ID表示,而變體網絡元件可包含基因變體,病毒蛋白質,環境因子和藥物。因此,變體網絡元件(也稱為網絡/變體)不僅可以適應基因變體,而且可以適應其他擾動因素以理解與疾病相關的擾動分子網絡。

KEGG NETWORK專注于*人類智能*,提供更詳細的圖片,特別是在網絡 - 疾病關聯方面理解人類疾病

在KEGG PATHWAY數據庫中,基于KO的參考途徑是從已發表的文獻手動創建的,計算生成pathway

Network/va:有網絡中的元素組成,其中:參考和突變的因素都是從已發布的文獻手動創建的。
    + 參考網絡元素:由人類的ID表示
    + 變體網絡元素:由基因變體、病毒蛋白質、環境因子和藥物。
    因此:
        通過變體、其他擾動因素來更好的理解與疾病相關的擾動分子網絡!
圖 2
KEGG NETWORK數據庫的概念圖。與將*人類*作為KEGG中的6000種物種之一處理的傳統方法相比,**新方法允許明確地結合人類基因和基因組的變體**。

癌癥網絡變種

? KEGG NETWORK數據庫將包含與各種疾病相關的網絡變異,但截至2018年9月,它包含癌癥,病毒感染和某些類型的內分泌和代謝疾病的網絡變體。圖3顯示了癌癥網絡變體的實例。癌細胞獲得特征,稱為通過的Hanahan和Weinberg(癌癥標志3,4),如維持增殖信號傳導和抗細胞死亡,這是緊密相關的擾動信號傳導途徑如MAPK信號傳導和PI3K-AKT信號傳導途徑。圖3A顯示了MAPK信號傳導途徑圖(KEGG ID:hsa04010)的一部分,其主要途徑是從生長因子到以粉紅色標記的ERK激酶。數字圖3B示出了NETWORK數據庫中該路徑的所選數據,其中每個網絡元素由N號標識,并且網絡元素的集合可以在我們所稱的網絡變化圖中查看。

圖 3.jpeg

圖 3:(A)KEGG途徑圖(hsa04010)中的MAPK(ERK)信號傳導途徑,其中從生長因子到ERK激酶的主要途徑以粉紅色標記。 (B)網絡變體圖(nt06201)的示例,作為與(A)中的主路徑對應的網絡元素的集合。 文本著色表示:參考網絡元素為綠色基因變異為紅色,病毒蛋白為紫色。

? 網絡變異圖采用顏色編碼:綠色參考網絡元素,紅色基因變體,紫色病毒蛋白質和藍色藥物。如圖3B所示,地圖可以以對齊模式顯示,意味著變體網絡元素與參考網絡元素對齊,并且可以與左側的另一種顏色編碼指示的癌癥類型相關聯,例如非綠色。小細胞肺癌和褐色黑色素瘤。圖3包含眾所周知的MAPK信號通路組成性激活的例子,導致持續的增殖信號傳導,如EGFR突變(N00014)和EML4-ALK融合(N00007)在非小細胞肺癌,BCR-ABL融合( N00002)在黑色素瘤中的慢性髓性白血病和BRAF突變(N00013)。

網絡元素的節點和邊緣

? 目前,每個網絡元素是由不同類型的邊連接的線性節點序列,如圖4所示。節點包括人參考基因(由KEGG基因中的hsa ID鑒定),人基因變體,病毒蛋白,代謝物和藥物。邊數的雙字符文本表示用于N數字條目的定義字段,邊緣的符號表示用于網絡變體映射。

圖 4.jpeg

圖 4:KEGG網絡元素的節點和邊緣。

看圖的Node、Edge的信息描述

? 基因變體可包括(i)通過激活突變,擴增和融合獲得功能,(ii)通過滅活突變和缺失而喪失功能和(iii)基因/蛋白質過表達。它們存儲在KEGG VARIANT數據庫中,并由變體ID識別,例如hsa_var:1956v1和hsa_var:1956v2,分別代表EGFR(hsa:1956)擴增和突變。每當變體條目被認為是等同的時,每個變體條目可以包含已知突變的多個實例和其他遺傳改變。例如,1956v2由外顯子19缺失和L858R突變組成。KEGG VARIANT數據庫還包含指向外部數據庫的鏈接,如ClinVar(5),dbSNP(6)和COSMIC(7)

KEGG VARIANT數據庫還包含指向外部數據庫的鏈接,如ClinVar(5),dbSNP(6)和COSMIC(7)

? 圖3B包含由病毒蛋白,卡波西肉瘤相關皰疹病毒(KSHV)的K1蛋白引起的網絡變體(N00160)。這種病毒癌蛋白激活多種途徑以維持增殖信號傳導和抵抗細胞死亡,這類似于人癌基因,如圖5所示的EML4-ALK融合基因。病毒蛋白質擾動的另一個重要方面涉及逃避免疫破壞,這在致癌病毒和非致癌病毒中均可觀察到。其中一種逃避策略稱為病毒模仿(8),編碼調節免疫反應的蛋白質同源物,如細胞因子和細胞因子受體。KEGG NETWORK正在組織病毒蛋白的這些和其他擾動,以及KEGG PATHWAY中病毒感染的增強版路徑圖。

m_gky962fig5.jpeg

圖5 比較KSHV的癌蛋白K1和癌基因EML4-ALK在非小細胞肺癌中激活的信號通路。 這些途徑涉及維持增殖信號傳導和抵抗細胞死亡。

藥物 - 目標關系

? KEGG NETWORK數據庫還包含藥物 - 靶標關系,特別是對于那些以變體蛋白質為靶標的藥物。圖6顯示了針對圖3B中所示的MAPK信號傳導途徑中的基因變體的抗癌藥物。由于癌細胞可通過二次突變產生對分子靶向藥物的抗性,因此區分藥物 - 靶標關系和相應的變體數據。例如,伊馬替尼,克唑替尼和吉非替尼的第一代酪氨酸激酶抑制劑與后代的對應物不同。這些數據主要來自DailyMed數據庫中的FDA藥物標簽。

gky962fig6.jpeg

圖 6:抑制信號傳導途徑的抗癌藥物的藥物 - 靶標關系的實例如圖3B所示。

KEGG的其他發展

KO系統更新

? KEGG GENES數據庫的附錄類別于2015年引入,作為已發布的蛋白質序列數據的集合,具有經過實驗驗證的功能信息(9)。雖然與完整基因組的主要類別(2700萬個基因)相比,序列的數量非常少(<5000個蛋白質),但附錄類別對于定義功能性直向同源物的KO組非常有用。截至2018年9月,KO數據庫包含超過22 000個KO條目,其中85%與出版物相關聯,68%與序列數據相關聯,這可被視為定義KO的核心序列數據。10%的鏈接序列數據在附錄類別中。KEGG GENES數據庫的注釋(KO分配)率不斷提高,目前為48%,因為KO數據庫每年增長5-7%

? KO系統是表示基因和蛋白質功能分類的KO條目的分級分類。KO系統最初是作為基于途徑的分類而開發的,但由于包含其他數據集,KO系統(KEGG ID:ko00001),PATHWAY分類(br08901)和BRITE分類(br08902)之間存在差異。這已得到糾正,新的KO系統由八個頂級類別組成:六個用于PATHWAY(代謝,遺傳信息處理,環境信息處理,細胞過程,有機體系統和人類疾?。粋€用于BRITE(Brite Hierarchies),另一個用于空余(不包括在Pathway或Brite中)。

新的KO系統由八個頂級類別組成:
    六個用于PATHWAY(代謝,遺傳信息處理,環境信息處理,細胞過程,有機體系統和人類疾?。?    一個用于BRITE(Brite Hierarchies),
    另一個用于空余(不包括在Pathway或Brite中)。

酶命名法的序列數據

? 自1961年以來,酶委員會(目前是IUBMB / IUPAC生物化學命名委員會)已經制定了酶命名法列表,其由分級分類的EC(酶學委員會)編號組成,其給出了實驗觀察和公布的酶促反應。KEGG ENZYME是從ExplorEnz數據庫中獲取的酶命名法的實現(10)以及關于原始實驗中使用的酶的序列數據的額外信息。酶命名列表不斷擴展,它是尋找蛋白質功能新出版物的最重要來源。手動檢查這些出版物以識別序列數據,這些數據通常作為附錄條目并入KEGG GENES。然后,在適當的情況下,使用EC編號的關聯來定義新的KO條目。KOs和EC編號之間的關系是多對多的。一個KO可以與多個EC編號相關聯,并且一個EC編號可以被給予多個KO。

? 截至2018年9月,超過6000個EC條目中約有一半與序列數據相關聯。圖7顯示了EC條目與創建年份的數量,其中已知序列為藍色,而未知序列為灰色。大多數最近添加的EC條目與序列數據相關聯,但最初出現在酶列表的印刷版本中的舊條目更成問題,因為通常情況下酶被分離并且實驗是在不知道的情況下進行的序列數據。

m_gky962fig7.jpeg

圖 7:每年分配的EC編號。藍色表示EC編號的分數,其中可以鑒定原始實驗中使用的酶的序列數據。

DISEASE和DRUG數據庫的改進

? 由于NETWORK和VARIANT數據庫是在健康信息類別中引入的,因此DISEASE和DRUG數據庫已經發生了一些變化。首先,DRUG數據庫的Target字段現在包含根據藥物 - 目標關系的網絡數據的變體ID(圖6)。其次,疾病登記(由H號碼識別)和藥物登記(由D號碼識別)之間的聯系僅基于藥物標簽。DRUG數據庫的疾病字段包含藥物標簽中指示的疾病,并且自動為DISEASE數據庫的藥物字段生成反向鏈接。因此,<u>基于FDA藥物標簽的英文版與基于日本藥品標簽的日文版之間的藥物 - 疾病聯系存在一些差異</u>。第三,通過引入子組和超組名稱來重組疾病條目之間的關系。第四,疾病登記由世界衛生組織于2018年6月發布的ICD-11代碼提供.ICD-11疾病代碼和ATC藥物代碼起著與許多外部資源相連的作用。

? 除DISEASE數據庫Gene基因領域的人類基因組與疾病關系外,病原體基因組與傳染病關系正在DISEASE數據庫的病原體領域進行重組,該數據庫現在包含用于致病性和抗菌性的特征模塊的模塊子字段。抵抗性。甲識別病原體的基因組抗菌素耐藥性的工具是可用的(11)作為BlastKOALA服務器(的一部分12,13)。

訪問KEGG

KEGG可在KEGG主站點(https://www.kegg.jp/)和GenomeNet鏡像站點(https://www.genome.jp/kegg/)上獲得。對KEGG關系數據庫和一些工具,如BlastKOALA和GhostKOALA(直接查詢12,13)僅在主站點,而宏基因組數據(MGENOME和MGENES)和各種分析工具都保持在GenomeNet網站??梢酝ㄟ^在任一站點首頁的搜索框中輸入ID來檢索本文中提到的KEGG ID的內容,例如hsa04010,nt06201,N00014和hsa_var:1956v2。

致謝

計算資源由京都大學化學研究所生物信息學中心提供。

資金

日本科學技術廳國家生物科學數據庫中心(部分)。開放獲取費用資金:日本科學技術廳國家生物科學數據庫中心。

利益沖突聲明。沒有聲明。


釋放歷史:

https://www.kegg.jp/kegg/docs/relnote.html

https://www.kegg.jp/kegg/docs/upd_all.html

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容