導讀
Konrad J. Karczewski, and Michael P. Snyder撰寫的關于整合多組學在疾病研究中的應用一文《Integrative omics for health and disease》,于2018年2月26日發表在nature reviews genetics (Nature系列綜述, 2018 IF: 41.465)。
對于發病原因復雜的疾病通常很難用單一的理論模式進行全面表述,多組學技術通過整合生物系統中諸多相互聯系和作用的組分來研究復雜生物過程的機制,從而為更加準確地對疾病進行闡述提供了可能性。同時作者也闡述了多組學技術在臨床應用中存在的問題和挑戰,并且整合組學正推動著真正的精準醫學時代的來臨。
摘要
多種組學技術(如基因組、轉錄組、蛋白質組和代謝組)的進步已在極其詳盡的分子水平促使個體化醫療成為可能。盡管每個單獨的組學技術都促進了醫學的進步并已進入臨床實踐,然而單個技術難以捕捉大多數人類疾病的整體復雜性。整合多組學技術正成為綜合研究生物和疾病的新方法。本文討論了多組學數據的整合,以及將其應用于人類健康和疾病研究的可能性。我們提供了一些多組學數據整合的例子,用以理解、診斷并監測相應疾病的治療,包括罕見病、常見病以及癌癥和移植生物學。最后我們討論了多組學技術在臨床應用上面臨的技術和其它方面的挑戰。
名詞解釋
1. 可操作性 (Actionability): 基礎研究的突破能用于改善某種疾病治療的醫學實踐。
2. 孟德爾遺傳病 (Mendelian diseases): 由遵循孟德爾遺傳規律(如顯性或者隱性)的單個位點或基因引起的疾病。
3. 遺傳病因學 (Genetic aetiology): 研究引起特定疾病的遺傳因素的學科。
4. 表達數量性狀位點 (Expression quantitative trait loci (eQTLs)): 誘發基因表達顯著變化的遺傳變異。
5. 遺傳力 (Heritability): 性狀的表型變化可歸因于加性遺傳變異的比例。
6. DNA酶超敏感性 (DNase hypersensitivity): 根據染色質被DNA酶I切割的敏感性來度量染色質的開放程度。
7. 結構變異 (Structural variants): 1 Kb或者更長區域的一類遺傳變異,包括拷貝數重復、插入、缺失以及易位和倒位。
8. 縱向數據 (Longitudinal data): 在一段時間內,從較大的群體中對同一受試者的重復觀測結果的集合。
高通量測序及其它大規模并行分析技術(如質譜)成本的快速下降使他們能夠廣泛應用于臨床研究與實踐。外顯子組和基因組測序技術已被用于疾病的輔助診斷(尤其是罕見病的診斷)、指導癌癥的治療和預后以及建立健康個體的疾病預測模型等。很多科研人員和公司正在致力于開發全基因組范圍內的遺傳、基因表達和其它組學數據(如微生物組,BOX 1)做為疾病診斷的標記物(詳細見TABLE 1)。例如全基因組關聯分析(GWAS)已經成功地鑒定出了疾病的風險位點。然而多數情況下,一些疾病相關的驅動變異或驅動基因仍未被鑒定出來。在此情況下,其它組學技術可以在精準病理生理學上對這些疾病提供有效檢測。有些組學技術如蛋白質組學可以產生更接近于生物表型的數據,但由于昂貴且不夠深入全面,在用于查明病因上仍有很多挑戰。因此,幾乎沒有一種單獨的技術能夠解釋導致人類疾病的分子事件的復雜性。測序發展史:150年的風雨歷程
Box 1
方框1. 在多組學技術中引入微生物組
微生物組與許多人類常見疾病有關,但由于不確定其是因是果,使得問題變得更加復雜。基因組數據中,致病性關系簡單明確,通常是DNA影響表型(除了癌癥導致的突變發生外)。但解密微生物組成與疾病的因果關系卻比較困難這些研究需要昂貴的縱向或介入性實驗,并且小鼠模型無法全面模擬人體生物學。盡管如此,患有諸如炎癥性腸病、II型糖尿病和肥胖癥等疾病的患者確實具有與健康人群顯著不同的微生物組成。此外,微生物組對免疫功能有強烈影響,在動物模型中被認為是疾病發生的潛在因素。
隨著對微生物組理解的深入,綜合分析該組學及其它組學技術可以加深對人類疾病的理解。最近研究顯示,人類基因序列影響整個腸道微生物群的組成,為某些疾病的相關遺傳位點提出新的致病解釋。此外,人類遺傳物質和微生物組之間的互作會影響疾病,同時整合這兩種圖譜的研究會很有價值。宿主與其微生物組之間的代謝信號互作已成為一個熱門的研究領域,越來越多的證據表明來自腸道細菌的代謝物可能在人類疾病中起作用。因此,綜合分析基因組、代謝組、微生物組及其它組學可能有助于健康管理和疾病診治。
表1: 整合組學的數據類型
CPTAC, Clinical Proteomic TumourAnalysis Consortium; EDRN, Early Detection Research Network; ENCODE,Encyclopedia of DNA Elements; GEUVADIS, Genetic European Variation in Healthand Disease; gnomAD, Genome Aggregation Database; GTEx, Genotype–TissueExpression; GWAS, genome-wide association study.
理想情況下,不同的組學技術可以結合起來,用以輔助疾病診斷并全面了解人類的表型和疾病。然而多組學數據的分析引入了新的信息和解讀上的挑戰。尤其需要新穎的分析和統計方法來將不同類型的數據集整合和質量控制指標的標準化。此外該領域必須重視分子事件的解讀、基礎發現的可操作性以及是否可以用于指導治療和臨床護理。
下面將介紹整合組學如何通過幫助健康管理及疾病的診斷治療來影響醫學。我們討論了罕見的孟德爾遺傳病如肌營養不良癥和更為常見的疾病如自閉癥和阿爾茨海默病的臨床前和臨床應用。此外,我們還研究了多層次組學技術在癌癥診斷和治療中的應用。我們始終都在討論綜合多個數據集的優勢,例如多種技術優勢互補,有助于深入了解疾病的機制。此外,還討論了目前的技術方法和將多個來源的數據進行最優組合和解讀的挑戰,以及將其成功應用于闡明人類疾病機制的一些令人鼓舞的例子。
1. Dissecting Mendelian disease
解析孟德爾遺傳病
在北美,大約10%的住院兒童和20%的嬰兒的死亡可歸因于孟德爾遺傳病。多數情況下,臨床醫生和病人家屬會借助外顯子組及基因組測序技術找到孟德爾遺傳病的相關致病突變。但是由于疾病類型和實驗設計等因素,這一新技術在靶向測序未能找到致病機理的病例中只有25-50%獲得了成功。對于主要由隱性變異導致的疾病,只有當此致病變異已被收錄在疾病變異數據庫(如Clinvar)中或者在一個已知疾病基因上發生了蛋白質截斷變異(如提前終止,移碼或關鍵剪接位點變異)時,這種檢測技術才最為有效。然而,有時變異的影響可能比較微弱(例如可誘發新的隱性剪接位點的內含子變異),或由于體細胞嵌合導致突變難以被檢測到,或多個候選變異都可能是驅動變異,這些都會使導致疾病發生的真正變異變得難以被檢測到。此外,不了解遺傳病因或對候選變異基因研究較少時,這種診斷會格外復雜。綜合其它信息如RNA測序(RNA-seq)或網絡分析,有利于檢測可能的驅動變異中更重要的分子事件,或提供更多的證據來表明某個候選突變是導致疾病發生的原因。例如在對非典型范可尼貧血癥的患者進行多組學分析時,DNA測序和基因組雜交微陣列芯片(aCGH)在識別最終被鑒定為驅動突變的位點是有效的,而RNA-seq可為一些最初不認為有致病性的變異提供致病證據,包括影響剪接模式的內含子變異和同義突變,以及導致轉錄本被削弱表達的非編碼外顯子及其上游區域的缺失。
最近,對大約50名患者的兩項系統性研究均使用了RNA-seq和其它技術(圖1),使得診斷率提高了約10%到35%。其中一項研究表明,全外顯子組測序(whole-exome sequencing, WES)并沒有為被診斷為肌營養不良癥的(muscular dystrophy, MD)患者找到驅動變異,但RNA-seq數據卻鑒定出導致剪接異常的隱性剪接突變事件。特別的,即使對這些患者進行了全基因組測序(WGS)鑒定出這些變異,但由于它們多位于內含子區域或被預測為不會影響剪接,也可能不會被視為可誘發疾病的變異。由于測序成本快速降低以及可獲得的信息量增加,RNA-seq可能會成為在臨床實踐中鑒定疾病病理與生理學的有力工具。同樣地,隨著蛋白質組學技術的成本越來越低和更容易獲取,使其可用于鑒定諸如通過影響蛋白質穩定性或翻譯后修飾的錯義突變而引起的蛋白水平變化。蛋白質組學研究概述
圖1 鑒定可用于診斷罕見病的驅動變異。在Kremer和Cummings等人的工作中,采用了多組學方法助力于診斷尚未診斷的疾病。盡管現在外顯子組和基因組測序能夠在20%至50%的案例中有效地識別驅動變異(取決于不同的遺傳和表型),但單一組學技術并不能診斷大多數的病例。(a,b)用來自患者組織的RNA-seq數據可以進行分子診斷,鑒定出異常表達、剪切或者是具有等位基因特異性表達的基因,從而幫助揭示疾病進展的分子機制。(c)在某些情況下,功能驗證如蛋白質組可以更進一步助力疾病診斷。(生物AI插圖素材獲取和拼裝指導,高顏值可定制在線繪圖工具-第三版)
2. Genetic architecture of common disease
常見疾病的遺傳結構
很多常見病比如糖尿病、肥胖癥、精神分裂癥和自閉癥等發病機制復雜,是多種遺傳和環境因素共同作用的結果。目前已發現數千個基因組位點與人類疾病密切相關。然而一旦確立了這種相關性,難點則是在特定疾病的分子生理病理背景下研究該基因的特征以及與其影響的基因和通路。為此更多多組學數據集的分析方法被開發出來,其中包括網絡分析和富集分析。GO、GSEA富集分析一網打進
2.1 Network analyses
網絡分析
多種正交類型數據的整合可用于縮小疾病相關基因的搜索范圍并鑒定致病機制。特別是一些網絡模型,包括蛋白質-蛋白質相互作用生信寶典之傻瓜式(四)蛋白蛋白互作網絡在線搜索、調控和共表達網絡,已被證明是鑒定疾病基因和通路的寶貴資源。這些網絡可以與任何全基因組范圍的數據集(包括單核苷酸多態性(SNP)或基因表達數據)相結合,用于考察在某項研究中與疾病顯著相關基因網絡的拓撲學性質,這對那些在全基因組統計分析不顯著的基因更為適用 (因為可以考慮其加性效應,GSEA富集分析 - 界面操作)。對于遺傳變異數據,挑戰在于將SNP位點映射到受影響的基因:在某些情況下這種變異的作用比較明確,比如克羅恩氏病的免疫應答相關基因NOD2的移碼突變,但更多的情況是變異影響的基因并不明確。此外,多個SNPs可以組團增強調控能力,這時就需要考慮連鎖不平衡模式的影響。
盡管存在這些挑戰,網絡法已經成功地幫助理解了一些人類疾病。例如,在自閉癥類群(ASD)患者中具有新的錯義或無義突變的基因,往往富集于蛋白-蛋白相互作用網絡中與其它基因(為了速成生物學,一位程序員探索了"爆款"基因背后的秘密)尤其是先前認為參與ASD的基因有高度連結的基因中。這種方式提供了一種在候選疾病基因中進行優選的機制,要么是表示這些基因由于是網絡的中樞基因而具有更重要的影響,或因為與已知的疾病基因有關而被推定為疾病相關基因。生信寶典之傻瓜式 (四) 蛋白蛋白互作網絡在線搜索
此外,我們實驗室最近的兩項工作將基因組學、RNA-seq和蛋白質組學數據整合在一起,鑒定出與自閉癥有關的新基因和復合物,并對其功能特點進行了描述。特別是對蛋白-蛋白相互作用網絡的分析揭示了一個模塊(或稱為互作基因群),此模塊富集了已知的參與自閉癥的基因,以及在自閉癥病例中攜帶拷貝數突變和罕見突變的基因。該模塊富集了參與突觸傳導的基因,并且RNA-seq數據顯示其中一個子模塊中的許多基因在ASD患者的胼胝體具有差異表達(DESeq2差異基因分析和批次效應移除),這為許多ASD患者相比于正常人有更小胼胝體的現象提供了一個假定的分子解釋。同樣,通過將自閉癥患者的罕見變異比對到蛋白質復合體上揭示了參與自閉癥的新蛋白質和復合體,包括組蛋白去乙酰化酶(HDAC)、染色質重塑復合體和其它蛋白質復合體。因此,全基因組測序數據和全外顯子測序數據與蛋白質互作數據的整合可以為重要疾病(如包括自閉癥、II型糖尿病和心臟病)提供新的機制解釋。來一場蛋白和小分子的風花雪月
2.2 Enrichment analyses
富集分析
為了理解從DNA到生理機能的遺傳信息流整體的調控機制,最近已經進行了許多大規模的富集分析。蛋白質的編碼變異是許多生物性狀的基礎,比如來自GWAS的許多與性狀相關的基因位點富集了蛋白質序列的中斷變異(非同義變異)。然而只有一小部分的疾病屬于這一類,因此將非編碼調控注釋信息與疾病相關的其它數據整合起來,對于鑒定疾病基因和查明病因非常有價值。特別是,用于測量基因表達(RNA-seq,轉錄組分析工具哪家強?)以及用于測量基因表達調控區活性的方法(如用于檢測轉錄因子結合位點的染色質免疫沉淀測序(ChIP-seq)或用于檢測染色質開放區域的DNA酶高敏感位點測序(DNase-seq)),在鑒定基因組調控的組織特異性研究上具有重要價值。因此,如果疾病相關變異富集在表達數量性狀基因位點(eQTL)以及轉錄因子結合位點,那么許多疾病的病因可能是對應的調控機制異常。最近一項對108個精神分裂癥相關位點的研究證實,其中20個位點的基因表達有變化,這可以至少部分解釋他們之間的部分關聯。ChIP-seq基本分析流程
最近使用GWAS總結統計和功能注釋數據的分區遺傳法(partitioning heritability methods),闡明了編碼區和調控區變異的相對貢獻,結果表明許多常見性狀的大部分遺傳特征來源自于調控區的變異(DNA酶超敏感的開放染色質區域),以及許多細胞類型特異的增強子區域 (從Richard Young教授的系列研究看超級增強子發現背后的故事 (附超級增強子鑒定代碼))。
此外,這種富集信息可用于辨別驅動變異以及通過增加對每種性狀特異性注釋的權重來鑒定與疾病和性狀有關的新基因。在撰寫本文時,這些方法尚未進入臨床實踐,但在揭示許多常見疾病的病因方面具有非常重要的價值。
3 Narrowing causal mechanisms in common disease
聚焦常見疾病的驅動機制
如前所述,GWAS已成功識別出與疾病在統計學上有相關性的基因位點,但卻很少發現驅動變異。整合多種數據類型如功能注釋數據,也可以加深對特定疾病相關變異潛在功能的理解。
3.1 Indirect integration across individuals
個體間的間接整合
目前,確定與某一性狀相關的驅動變異的低成本方法是使用多個獨立的數據集,從一組具有生物學證據的候選位點中確定疾病形成的機制。此過程可以從GWAS開始,然后對一組基因組范圍的統計顯著相關位點做后續的功能驗證,具體的實驗可能取決于所鑒定的基因位點的類型或疾病的遺傳結構。對于編碼變異,后續確定變異對蛋白質結構或功能影響的實驗可以很好地解釋疾病的起因。對于非編碼區的變異,結果通常更難以解讀,但最近的大規模表觀遺傳學研究如DNA元件百科全書計劃(ENCODE)和表觀基因組路線圖項目(Roadmap Epigenomics projects),可以提示可能的調節機制以及后續實驗需要關注的轉錄因子。例如,對系統性紅斑狼瘡(SLE)相關變異的詳細研究表明,變異不僅影響核轉錄因子-κB(NF-κB)的結合,并且與腫瘤壞死因子-α誘導蛋白3(TNFAIP3)在mRNA和蛋白質水平上均相關。
Manolis Kellis和其同事最近兩項綜合多種數據類型的研究,極大地加深了對阿爾茨海默病和肥胖癥分子病理學的理解。首先,該研究組結合基因表達和表觀組學數據,發現在阿爾茨海默病小鼠模型中上調的基因具有免疫細胞增強子的特征。重要的是,雖然免疫系統基因與阿爾茨海默病之間的聯系早已確立,但在此情形下多組學數據類型被證實可用于建立一個效應(所施加)的方向,即阿爾茨海默病人免疫系統基因的表達和調節活性均有協調性地增加。同樣地,整合表觀基因組和染色體構象數據,以及攜帶FTO肥胖等位基因的患者的基因表達信息和許多其它數據類型,為風險等位基因的機制提供了解釋(圖2)。使用CRISPR-Cas9(CRISPR-CAS9發展歷程小記)對風險等位基因進行基因組編輯可以修復其異常表達和熱量生成,這提供了一種對于肥胖癥的潛在治療方式。
圖2 從全基因組關聯研究到機制解釋。在最近的一項研究中,Claussnitzer和其同事提出了鑒定FTO基因中的一個與肥胖相關變異位點的疾病驅動機制的綜合方法。(熱圖、箱線圖在線繪制,教師節獻禮 - 文章用圖的修改和排版)
圖a展示了肥胖相關生物機制的整體研究策略,并對每一步進行了順序編號。最開始的全基因組關聯研究(GWAS)中曼哈頓圖展示了FTO基因區與肥胖顯著相關(圖b)。首先,研究人員確定了相關的組織或細胞類型(步驟1)以及下游靶基因。這主要通過調控組學包括染色質狀態信息和染色體構象捕獲(Hi-C)數據來分析實現的。同時他們確立了該變異為發育基因IRX3和IRX5(步驟2)的表達數量性狀基因位點(eQTL)。這是因為在有風險突變的個體中這些基因的表達增加而相鄰其它基因的表達則沒有改變(圖C)。進一步發現IRX3和IRX5的表達與參與線粒體功能的基因表達負相關,與參與脂肪細胞大小調控的基因表達正相關(圖d)。然后使用CRISPR-Cas9編輯實驗揭示核苷酸驅動變異在ARID5B的富含AT的結合基序中(步驟3,4),并驗證了其其分子效應,包括表達特征的改變和調節能量平衡的表型效應對(步驟5)。最后,使用小鼠模型在生物體水平上確立了驅動變異(步驟6)。AKTIP, AKT interacting protein; CEU, Utah residents (CEPH) with northern and western European ancestry; CHD9, chromodomain helicase DNA binding protein 9; CRNDE, colorectal neoplasia differentially expressed; FXR, farnesoid X-activated receptor; LD, linkage disequilibrium; PGC1α, peroxisome proliferatoractivated receptor-γco-activator 1-α; PRDM16, PR domain zinc-finger protein 16; RBL2, RB transcriptional co-repressor like 2; RXR, retinoid X receptor; SNPs, single-nucleotide polymorphisms; TF, transcription factor; TSS, transcription start site; UCP1, mitochondrial brown fat uncoupling protein 1.
3.2 Direct integration within an individual
個體內的直接整合
多組學技術數據的整合可以在生物調控的多個層次之間建立聯系。繪制單個個體的多組學特征圖譜將會是全面揭示導致特定生理表型的分子機制的有力工具。然而這些方法需要對同一個體實施多次干預及技術處理,所以比較昂貴,限制了其應用于大量樣本。我們實驗室第一次進行了這個實驗,隨訪了一個人7年多,而另一個類似的研究隨訪了另一個人1年。在Chen等的文章中,基因組分析預測到升高的II型糖尿病風險,隨后通過詳盡的組學分析,包括轉錄組學、蛋白質組學、代謝組學和其它測量技術等進行了深入驗證。特殊地,在呼吸道合胞病毒感染期間,RNA-seq和液相色譜-串聯質譜(LC-MS/MS)的蛋白質組學發現參與胰島素信號傳遞和響應的基因下調,同時血糖濃度上升至糖尿病患者的水平。多組學技術的優勢在于可以在共不變的遺傳和個體背景下追蹤分子機制的聯系,因為可以跟蹤分子事件的連續進展,如GWAS鑒定的疾病相關基因的差異表達導致了RNA和蛋白質水平及其相應代謝物的差異。
然而,由于組學分析實驗有很高的多重假設檢驗負擔(如基因組中所有的基因或成千上萬的代謝物),更大的樣本量將有助于確定這種相關性的普遍性。最近一項研究監測了23個個體的不同組學特征,確定了體重增加時的炎癥特征,并發現某些代謝途徑在體重減輕后沒有恢復到正常水平。該分析強調了個體縱向組學特征的相似性,以及在穩態和實驗干擾下的個體特異性特征。為了進一步明確這些差異,將這些分析擴展到數千個個體的研究已在早產、炎癥性腸病和II型糖尿病中展開。同樣地,最近兩個獨立的研究組分別對遺傳和代謝組學數據進行了分析:其中一個計算了100多個個體的多基因風險評分,并與代謝產物的測量值相關聯;另一個則是在健康志愿者中鑒定了與個體代謝產物和代謝通路異常相關的罕見有害變異。此外,隨著健康個體的組學參考數據庫的建立(比如已經可用的有:外顯子組數據、基因組數據(如Genome Aggregation Database (gnom AD)和RNA-seq數據),在這些對照組背景下解讀個體水平的數據將變得更加容易。
其它工作包括弗雷明漢心臟研究(Framingham Heart Study)和基因組表征研究,如基因型-組織表達(GTEx)項目,以及被提議的enhanced GTEx(eGTEx)項目中擴展到基因表達之外的分析 (癌癥組織特異性基因怎么找?這是個不錯的開始)。這些項目采用了廣度優先的組學分析策略,其中大量的個體是通過一組數量有限的只測定一組分子標記(例如全基因組DNA甲基化分析)的技術來繪制圖譜。
4. Cancer
癌癥
多組學分析已經并將繼續產生巨大影響的領域是對于癌癥圖譜分析、診斷和治療的領域。實際上,許多之前討論的策略(如網絡法)在識別癌癥的遺傳機制上將會是有效的。然而,癌癥中不同突變類型 (conceptual differences in cancers)使分析變得復雜化并需要特殊處理。除了識別體細胞變異的技術挑戰外,癌癥病例中大多數明顯的遺傳改變是良性的,并不會促進癌細胞生長。因此,確定哪個突變是驅動突變或哪種通路參與其中仍是一個嚴峻挑戰。此外,盡管一些癌癥在個體間具有相同的遺傳特征,但驅動突變的種類仍然高度多樣化,這可能會導致預后和治療的差異。腫瘤化療無效是對預先存在的突變的選擇還是誘發新突變,Cell給你答案
4.1 Identifying driver mutations
鑒定驅動突變
一個典型的識別驅動突變的過程包含對多個腫瘤進行全基因組測序(WGS)來識別共有的突變基因。添加功能數據有助于對這些基因的驅動基因的可能性進行排序,因為驅動突變更可能出現在特定癌癥表達的基因中。例如,在使用全外顯子測序(WES)結合拷貝數變異(CNV)微陣列數據鑒定驅動突變的分析中,RNA-seq數據支持融合基因EGFR-SEPT14的表達,后續功能驗證表明該突變確實可影響神經膠質瘤的生長。在另一項使用類似技術的不同分析中,個體內多個轉移灶的驅動突變和演化進程在轉移灶之間基本相似,表明單個轉移灶足以進行下游分析。通過這種方式,使用額外多組學數據與遺傳數據共同分析,提供了一種機制來過濾大量的遺傳變異,最終獲得與功能相關的驅動變異。
4.2 Molecular signatures of cancer
癌癥的分子標記
除了識別驅動突變之外,多組學數據還可以揭示在癌癥中活躍的生化途徑并將其分類為各種亞型。因此,這是確定患者體內靶向哪種通路的一個有用工具,即使在這些通路中未檢測到強候選突變(如難以表征的非編碼突變或間接效應)。例如,轉錄組學和DNA甲基化模式分析已被用于識別與預后相關的癌癥亞型。最近,臨床蛋白質組學腫瘤分析聯盟(CPTAC)的三項研究使用基于蛋白質表達特征的蛋白質組學方法鑒定了結腸直腸癌、卵巢癌和乳腺癌的亞型。重要的是,蛋白質組學數據顯示出與轉錄組和遺傳數據重疊但不完全相同的相關性,表明不同的數據類型揭示不同的信息。這些研究展示了的不同遺傳和轉錄過程通過蛋白質組學變化發揮作用。最后,影像學信息與多組學信息的整合有望在癌癥診斷和預后中發揮重要作用。
最近,調節基因表達的非編碼區域的研究對于理解癌癥的調控模式變得越來越有價值。將調控信息的數據集與來自癌癥基因組圖譜(TCGA,UCSC XENA - 集大成者(TCGA, ICGC),TCGA數據庫在線使用)的WGS數據整合的一項研究,揭示了一些調控區域富含癌癥患者的攜帶突變。在此情況下,這些非編碼區域中哪些突變是驅動變異仍然難以確定,表明還需要相關研究繼續對這些變異做進一步篩選;盡管如此,具有相同癌癥的個體之間共有的網絡拓撲結構可以指示癌癥亞型,這些亞型可能有不同的預后和治療策略。最后,鑒于癌癥生長對代謝變化的強烈依賴性,代謝組學很可能在未來的癌癥診斷或預后中發揮重要作用。代謝與腫瘤,超強綜述
5. Challenges
挑戰
到目前為止,大多數整合模型已在科研領域被報道和發表。從首次成功診斷到多機構和國際采納,臨床基因組學的應用在過去幾年中迅速擴大。同樣,隨著縱向多組學分析,最近有了第一個研究實例,在以后也會類似地成為一種臨床工具。
然而,對于臨床采用的任何技術,在檢測和解讀中都需要高特異性和靈敏度。目前,除了在特殊情況下使用WES或WGS,這些技術在臨床實踐中并不經常使用,因為對許多疾病來說它們并未被證明優于當前的檢測。未來,必須建立臨床指南以確保準確性和有效性,并且必須進行測試以展現其非劣效性和成本優勢。
盡管存在以上挑戰,組學分析仍是檢測大規模變化或通路水平變化的有效方法,比進行數千個獨立測試更便宜且通常更全面,并且縱向分析可以顯示患者特異的趨勢,并可通過重復測量增加統計支持。雖然建立臨床指南仍面臨挑戰,但隨著我們對生物的理解和參考數據庫的成熟,解釋遺傳變異(尤其是罕見或新變異)的許多概念可應用于常見分子事件如差異表達基因、新蛋白磷酸化或獨特代謝組標記。
5.1 Analytical challenges
分析挑戰
在臨床實踐中廣泛采用綜合組學,必須解決各種分析挑戰,尤其是用于數據的聚合、可擴展性和集成到電子健康記錄(EHR)的統計方法。最重要的是,由于每個數據集都有自己的方差和偏差,因此需要一個穩定且可重復的統計框架來正確分析多個統計上不相干的數據集。多組學數據可以在多個階段或多維度宏方式 (meta-dimensional)進行分析。簡單地說,從這些數據中得出推論的一個方法就是對數據集進行成對分析,增加證據來支持某個結論。然而,同時分析三個或更多個數據集需要更復雜的多維方法,如貝葉斯模型 (貝葉斯學習記錄)、神經網絡或降維一文看懂PCA分析和還在用PCA降維?快學學大牛最愛的t-SNE算法吧(附Python/R代碼)。多組學數據類型本質上的不同使得問題進一步復雜化:例如遺傳變異數據是離散和靜態的,而RNA-seq數據是連續的并且可以提供縱向信息 (WGCNA分析,簡單全面的最新教程)。
盡管上述數據分析方法對于理解生物學和疾病是有效的,但它們可能不一定適用于臨床上個體水平的數據分析。在基因組學領域,通過個體的基因型和GWAS數據庫,可以計算多基因風險值來評估個體的患病風險。構建這樣的多組學分析框架仍然面臨一個主要障礙,即可能會面臨一些比如難以將一個群體的結果應用于另一個群體的個體中類似的挑戰。
除了分析方法的挑戰之外,這些分析和所有相關數據的存儲還需要巨大的計算資源:盡管個人的多組學數據量是可控的(例如,太字節數量級(1TB, 10^12 bytes))。但是這些數據需要放入更大的背景集中以理解與背景分布的偏差,這需要來自數千個樣本(艾字節數量級(1EB , 10^18 bytes))的數據。幸運的是,云計算慢慢可以緩解這些問題,根據每個醫院或醫療保健服務系統的特定需求提供彈性的計算和存儲設備,同時提高計算過程的可重復性。可重復性編程bookdown和Python文學化編程 - Jupyter notebook使用和插件拓展 。
目前,這種綜合數據集通常沒有可用于研究的標準格式,更不用說用于結構化的臨床系統;因此,需要建立基礎設施結構來管理這些數據,而這會帶來財務和行政負擔。特別是,衛生信息學家的任務是建立一個在電子健康記錄(HER)中存儲遺傳和轉錄組學數據的強大基礎設施。此外,需要臨床醫生和研究人員的共同努力來決定將哪些信息報告給患者并納入EHR。
5.2 Accuracy and validation
準確性和驗證
個體水平上,全基因組數據集存在固有錯誤率,結構變異也仍然難以檢測和識別(因此也很少被提及)。更連續和縱向的數據如mRNA表達和蛋白質組數據,根據所測定的組織特征其準確性可能更難以評估,但是這些方法有較高技術重復和生物學重復性。在某些情況下,這些技術獨立地識別同一生物學過程的不同方面,因此可以相互驗證:例如RNA-seq可以重現由WES或WGS鑒定的外顯子變異,而蛋白質組表達可以驗證RNA-seq的表達。然而,在需要高可信度的臨床環境中,這些測試目前由其它獨立的技術驗證,可能包括現有的臨床測試如酶法或低通量測定試驗。
對于癌癥基因組學,解讀異質性數據是一項重大挑戰。由于每個腫瘤是由具有不同程度體細胞突變的細胞組成的嵌合體,即使不區分伴隨突變和驅動突變,變異的檢測也很困難。特別是癌癥中的體細胞突變是純系突變還是僅在組織中的一部分細胞中出現,使得變異的發現復雜化,因此需要高覆蓋度和高質量數據將其與測序錯誤區分開來。利用細胞游離DNA(cell-free DNA)的超深度測序追蹤血液中痕量癌癥突變的存在以及利用單細胞測序檢測癌癥的異質性正成為強有力的方法。然而,用于檢測早期癌癥的細胞游離DNA方法需要穩健的方法來區分真正的低頻(變異)事件與測序錯誤,并且單細胞測序仍然很昂貴。盡管如此,這些方法已經被用于解析腫瘤異質性并在產前檢測中識別出癌癥的一個附帶突變。隨著其它組學數據集與超深度測序結合,我們期望這些方法能夠優勢互補,為臨床分子咨詢提供獨特而且強大的方法。
5.3 Interpretation
解讀
即使擁有高度精確的數據,另一個困難在于對基因組規模結果的解讀,特別是罕見的和新的分子事件,它們通常遠遠超過可以合理地進行功能驗證的(分子)事件的數量。個體基因組中的許多變異,特別是以前沒有見過且沒有明確功能效應的,被稱為“不確定意義的變異(VUS)”,該問題對于其它數據類型(例如轉錄組或蛋白質組數據)也存在。另外,判斷臨床上重要的分子事件如RNA表達閾值在不同的數據類型中很難確定。幸運的是,可用于外顯子組、基因組測序(gnom AD)和基因表達的大型群體參考數據集已可用。它們通過提供群體中的實際(變異)頻率來幫助解釋罕見事件。特別是,驅動變異在受影響的個體中應該比在更多的無癥狀群體中有更高的變異頻率,這可以支持或否定先前的致病機制。此外,醫生可能會發現不相關條件下的其它致病性分子事件,也稱偶發性發現,對于哪些結果反饋給患者到什么程度的信息仍存在相當大的爭議。
當結合多組學技術時,這些問題有時會得到改善,尤其是對于那些難以進行統計分析的、罕見的及新的分子事件。特別是,顯示為正交信息的多組學技術的直接整合可以為某個分子事件提供額外的證據:例如,如果RNA-seq顯示VUS(不確定意義的變異)影響關鍵疾病基因的剪接,則可以證實其潛在的致病機制。通過這種方法,多技術整合可以建立起單一技術無法實現的因果關系鏈。
5.4 Finding the relevant tissue
尋找相關組織
為了維持樣品間的一致性,許多大規模研究對已經得到的樣品進行了分析,例如血液或細胞系,包括轉化的淋巴母細胞樣細胞系( 被高中生物騙了這么多年,原來人體內細胞的DNA是有不同的?)。然而,對于臨床應用,理想情況是研究與特定疾病相關的組織,因為基因表達在不同組織中顯著變化(圖3)。GTEx、表觀組學路線圖和哺乳動物基因組的功能注釋5(FANTOM5)項目為多組織基因表達和表觀基因組數據提供了參考數據集。多數情況下,疾病相關組織可能已有記錄,例如MD(肌營養不良)的肌肉組織。然而,如果疾病定義不太明確或組織不可用,則可以通過對疾病的網絡分析來鑒定組織。事實上,已證明使用疾病相關組織對MD患者的診斷是有益的。對肌肉組織的轉錄組分析得到的診斷結果不同通過儲蓄替代組織(例如血液或成纖維細胞)來獲得,因為疾病相關基因在這些里面表達低。
在將此類數據用于臨床應用時,應注意確保來自患者樣本的數據與參考數據集具有可比性,這對于整合其它組學數據(例如代謝組學和蛋白質組學)將是至關重要的。當然,在組織(例如大腦)中存在大量細胞異質性的情況下,這種分析更加復雜:在此情況下,具有單細胞分辨率的技術將為解析每種單獨的細胞類型提供有價值的見解。在原代組織難以獲得或難以維持培養的情況下,使用CRISPR系統將突變引入誘導多能干細胞(iPS,周琪院士正面回應:60萬一針有用嗎?(干細胞治療))可以為分子驗證提供一個強有力的方法。
圖3 尋找相關組織。由于其可用性和易于采集(a部分),血液通常是最方便的實驗組織,但它通常不是觀察特定疾病如主要影響腦或肺的疾病的分子表型的理想組織。特殊地,相比于疾病近端組織(例如肌營養不良的肌肉組織),血液的轉錄圖譜(包括表達水平、剪接模式和增強子的使用)可能不適于檢測這些疾病。
5.4 Actionability and therapeutics
可操作性和治療
在討論臨床中使用的任何技術時,可能最重要的是其可操作性。實際上,一部分信息不足以說明其有意性:掌握診斷知識并結束診斷過程對患者和家屬來說是很有幫助的。 然而,在一個被稱為“精準醫學”或“個性化醫療”的體系中,可以指導干預的數據將十分有用。尤其是,對患者的疾病亞型進行分類以推薦特定的藥物,在組學分析(BOX 2)的基礎上來確定潛在移植是否匹配良好,或確定新疾病的驅動機制(并開發可以靶向直接分子產物的治療方案),可以改善治療結果并延長患者的生命。然而,即使是與治療結果在統計學上存在相關性的非驅動性分子事件也有可操作性,特別是以改變生活方式的建議形式,包括飲食、監測和預防性治療;事實上,具有高遺傳性冠心病風險的個體從他汀類藥物治療中獲益更大。
Box 2
方框2 . 移植供體和受體的多組學分析
每年有數千名患者接受器官和造血干細胞移植,但移植患者的死亡率仍然很高。檢測供體與受體匹配的慣例做法涉及人白細胞抗原(HLA)分型,最近已使用高通量測序技術開發了這種方法。然而,越來越清楚的是,非HLA因子可以顯著影響移植物抗宿主反應(GVHD)的預后和發展,因為HLA匹配的同胞供體移植比HLA匹配但卻無關的供體移植具有更低的GVHD風險,且常見的非HLA多態性與GVHD有關。
因此,多組學可用于確定最佳供體-受體匹配,以及監測排斥標記物。例如,對細胞游離DNA進行測序可以檢測循環的供體DNA,其水平與器官排斥的嚴重程度相關。另外,對這種細胞游離DNA進行測序可同時檢測病毒DNA以指示感染標志物。其它組學數據,例如RNA或蛋白表達,也可用于評估供體-受體間的相容性,以及監測排斥標志物。整合組學技術可能成為移植生物學的有用工具。
6. Conclusions and future perspectives
結論和未來展望
目前,組學技術(尤其是基因組測序以及較小程度的RNA-seq)僅在極少數情況下顯示出優于傳統的臨床測試,因此將這些技術納入臨床實踐存在較大的技術和監管障礙。然而,由于使用多種技術可以更清晰地了解健康和疾病,這些技術的整合很可能在未來的臨床實踐中成為普遍現象。此外,最近大型生物銀行計劃(如UK Biobank, Million Veterans Project和“All of Us”計劃)收集了生物數據并對數百萬人進行多組學分析,這將對人類疾病產生深刻的理解,并為更多其它的研究和臨床應用提供有價值的參考數據庫。
6.1 Predictive models of disease risk for healthy individuals and early detection of disease
健康個體的疾病風險預測模型和疾病的早期檢測
與傳統的臨床檢測一樣,大規模組學數據的分子測量可以整合到疾病風險模型中。特別是最近,已經開發了一組用于計算特定疾病遺傳風險的方法,稱為多基因風險評分。這些方法成功地將某個疾病(如心血管病等疾病)的患者分為高風險和低風險類別。在有了基于遺傳學或是家族史的疾病風險預測結果后進行針對性檢測。例如,如果一個患者被預測患有II型糖尿病的風險,則進行葡萄糖和糖基化血紅蛋白(HbA1c)水平的測定和其它測試,例如葡萄糖耐受性測試。然而,如果在未來能夠同時高質量和低成本地進行代謝組學的測量,那么將不再需要進行單獨化學測試。此外,來自可穿戴設備的持續收集的數據可與組學數據相結合用于在疾病癥狀出現之前的早期檢測。
6.2 Disease management
疾病管理
除了疾病預測和早期診斷外,整合組學在疾病治療和預后方面的作用將會變得越來越強大。來自轉錄組、表觀基因組、微生物組、蛋白質組和代謝組的信息以及成像和可穿戴設備的數據都將用于幫助破譯疾病,促進預后,從而指導治療。在癌癥中,腫瘤-正常組織對(tumour–normal pairs)的DNA和RNA測序已經鑒定了易位(變異)和基因表達的特征,針對性的靶向治療進而治愈疾病。在未來,隨著多組學的測量數據與疾病的預后關聯,這種數據驅動的范例很可能會成為醫學研究的有力工具,也將有助于促進臨床診斷和治療。
原文:Integrative omics for health and disease, DOI: 10.1038/nrg.2018.4
翻譯:RPM,宋紅衛,凌路頔
整合組學這么有用,要不要入門下生物信息學?生物信息之程序學習,該如何自學入門生物信息學,關于編程學習的一些思考。也可以加入我們的培訓班,一起學習,廣受好評哦。