全基因組關(guān)聯(lián)研究(GWAS)為復(fù)雜疾病的遺傳基礎(chǔ)提供了見解。在下一步中,綜合多組學(xué)方法可以表征相關(guān)原發(fā)組織中的分子特征,以揭示疾病發(fā)展的機制。近日,《Trends in Genetics》發(fā)表了一篇綜述文章,描述了通過綜合多組學(xué)方法獲得的四種相關(guān)復(fù)雜疾病的最新進展。
多組學(xué)數(shù)據(jù)&復(fù)雜疾病關(guān)聯(lián)分析
人類原始組織的多組學(xué)數(shù)據(jù)提供了疾病相關(guān)細胞類型的分子特征,從而揭示了遺傳研究以外的見解。這種分子信息將有助于克服目前復(fù)雜疾病轉(zhuǎn)化工作中的挑戰(zhàn)。簡而言之,組學(xué)數(shù)據(jù)可以與GWAS結(jié)果相結(jié)合,以使用因果推斷(例如孟德爾隨機化或共定位方法)識別風(fēng)險變異的目標(biāo)基因。此外,組學(xué)數(shù)據(jù)可以改善風(fēng)險變異特征,特別是對于那些存在于非編碼序列中的變異。事實上,GWAS與使用功能基因組技術(shù)生成的數(shù)據(jù)集的計算交集[例如,染色質(zhì)免疫沉淀后測序(ChIP-seq)、轉(zhuǎn)座酶可及染色質(zhì)測序分析(ATAC-seq)等]發(fā)現(xiàn),對于一些復(fù)雜性狀,風(fēng)險變異往往存在并在調(diào)控序列中富集。
公共組學(xué)數(shù)據(jù)資源
國際合作產(chǎn)生了可作為參考數(shù)據(jù)的公開可用的組學(xué)數(shù)據(jù)資源:
GTEx數(shù)據(jù)庫于2010年啟動,提供了從838個個體的尸檢樣本中收集的49個組織中基因變異對基因表達和剪接的影響的目錄。
ENCODE成立于2003年,是一個描述人類和小鼠基因組功能元件的試點項目,最初只關(guān)注基因組的1%,但現(xiàn)已擴展到整個基因組。目前的版本包括RNA轉(zhuǎn)錄、DNA結(jié)合、染色質(zhì)修飾和可及性、DNA甲基化和復(fù)制時間數(shù)據(jù)。它描述了926535人和339815只小鼠候選順式調(diào)控元件。
Roadmap展示了111種人類組織或細胞類型的人類表觀基因組數(shù)據(jù)(進一步提供了來自ENCODE的16種細胞類型,總共127種)。它包括組蛋白修飾模式、DNA可及性、DNA甲基化和RNA表達。
人類細胞圖譜(HCA)是一個國際合作項目,旨在生成單細胞分辨率的人類組織參考圖譜。例如,最近一項與HCA相關(guān)的研究調(diào)查了50萬個細胞,并為24個組織或器官的400種人類細胞類型提供了單細胞參考。HCA平臺目前提供來自3.8萬名捐獻者的2600多萬個細胞的數(shù)據(jù)(2022年7月7日)。
此外,還有提供疾病特定信息的數(shù)據(jù)庫。Musculoskeletal Knowledge Portal是與肌肉骨骼特征相關(guān)的遺傳和基因組數(shù)據(jù)的平臺。它目前包含301個數(shù)據(jù)集覆蓋281個性狀。同樣的,Type 2 Diabetes Knowledge Portal提供 T2D 相關(guān)數(shù)據(jù)(349 個數(shù)據(jù)集,347 個特征);TIGER包括來自500多個人類胰島樣本和糖尿病表觀基因組圖譜的組學(xué)和eQTL數(shù)據(jù);AD Knowledge Portal是一個讓AD相關(guān)數(shù)據(jù)可訪問的倡議。
多組學(xué)數(shù)據(jù)與疾病的關(guān)聯(lián)分析策略
將分子數(shù)據(jù)與疾病聯(lián)系起來的一個標(biāo)準(zhǔn)方法是進行差異分析,例如在病例和對照之間進行差異分析。這與GWAS中的病例對照方法類似。基因研究估計信號在疾病中起因果作用(而不是反過來,因為基因型不受疾病影響,其在受孕時就形成了),與此相反,分子特征(RNA或蛋白質(zhì)豐度、表觀基因組標(biāo)記或染色質(zhì)狀態(tài))的變化可能是疾病的后果,而不是驅(qū)動疾病的風(fēng)險因素。因此,差異分析識別的標(biāo)記不一定與感興趣的疾病有因果關(guān)系。
此外,已經(jīng)開發(fā)了一些跨多個組學(xué)層整合數(shù)據(jù)的方法。一個公認的例子是整合匹配樣本的基因組和基因表達數(shù)據(jù),以在全基因組范圍內(nèi)識別影響基因表達水平的遺傳變異,稱為表達數(shù)量性狀位點(eQTLs)。eQTL圖譜可以與GWAS結(jié)果相結(jié)合,以確定分子驅(qū)動因素(例如可能的效應(yīng)基因),通過這些分子驅(qū)動因素,風(fēng)險變異在疾病相關(guān)組織中發(fā)揮作用。在復(fù)雜疾病的背景下,這些高置信度效應(yīng)基因可能是有前途的藥物靶點。其他已建立的多組學(xué)策略從網(wǎng)絡(luò)中推斷信息,或從多組學(xué)數(shù)據(jù)集中估計低維表示,例如對樣本進行分層。
四種復(fù)雜疾病多組學(xué)數(shù)據(jù)關(guān)聯(lián)研究進展
二型糖尿病(T2D)
在T2D中,迄今為止最大的研究包括1339889名個體,180834例病例和1159055名對照,其中大部分是歐洲后裔(51.1%)。
Vi?uela等人研究了非編碼T2D相關(guān)變異對420名非糖尿病供體胰島組織中近端基因表達水平的影響。在胰島中發(fā)現(xiàn)7741個eQTL,在44個GTEx組織中復(fù)制率高達40~73%。eQTL與表觀基因組(ChIP-seq和ATAC-seq)數(shù)據(jù)的整合表明,eQTL在活性染色質(zhì)狀態(tài)(轉(zhuǎn)錄起始位點)和胰島特異轉(zhuǎn)錄因子(TF)足跡基序(GLIS3、RFX和ETS家族)中富集。eQTL 信號與來自 T2D 或血糖特征的變異的共定位 GWAS?確定了47個具有潛在因果作用的變異,突出了效應(yīng)基因中的DGKB和TCF7L2。
在Greenwald等人的一項研究中,作者使用Hi-C和ATAC-seq繪制了三位非糖尿病供體胰島染色質(zhì)結(jié)構(gòu)的高深度圖譜,并精細繪制了影響胰島增強子活性的30個已知T2D信號,通過進行eQTL定位,進一步確定了增強子中T2D風(fēng)險變異的目標(biāo)基因,強調(diào)IGF2BP2的rs10428126變異是潛在的致病變異。
Miguel-Escalada等的一項研究使用啟動子捕獲Hi-C (pcHi-C)(四個供體)以及來自非糖尿病供體的ATAC-seq(13 個供體)、ChIP-seq(16 個供體)和RNA-seq(七個供體),作者在胰島中發(fā)現(xiàn)了1300個以上的增強子中心,這些中心含有影響胰島素分泌的變異。其還檢測到了53個 T2D或空腹血糖風(fēng)險位點與胰島增強子重疊的可能效應(yīng)基因。此項研究的亮點之一是風(fēng)險變異rs7903146調(diào)節(jié)β細胞中TCF7L2的表達,以及通過含有rs11257655的增強子調(diào)節(jié)CAMK1D和OPTN。在多基因風(fēng)險評分 (PRS) 中包含這些增強子風(fēng)險變異可以量化遺傳風(fēng)險,特別是對于由胰島基因調(diào)控和胰島素分泌介導(dǎo)的體重指數(shù) (BMI) (<30) 較低的個體。
Chiou等人利用三名非糖尿病供體胰島中的snATAC-seq,結(jié)合已發(fā)表的scRNA-seq和T2D-GWAS數(shù)據(jù),研究了胰島中細胞特異性調(diào)節(jié)變化。
上述所有研究都對死后供體胰島的T2D多組分進行了分析。Wigger等人進行的首次同類研究,從活體胰島供體中提取胰島細胞,按照血糖水平從正常血糖到糖尿病進行分類。作者測量了胰島的轉(zhuǎn)錄組學(xué)(95名供體)和蛋白質(zhì)組學(xué)(5名供體),數(shù)據(jù)整合顯示與非糖尿病胰島相比,糖尿病胰島基因表達存在更大的異質(zhì)性,而糖尿病胰島中差異表達的基因主要涉及線粒體功能和免疫反應(yīng)。此外,作者還確定了糖酵解酶ALDOB、葡萄糖轉(zhuǎn)運蛋白SLC2A2、血漿神經(jīng)酰胺水平和乙醚連接磷脂酰膽堿的表達與HbA1c水平(血糖標(biāo)志物)的關(guān)系,認為它們是潛在的T2D生物標(biāo)志物。最后,這項研究表明,T2D似乎更可能是成熟胰島細胞中放松基因表達限制的結(jié)果,而不是β細胞去分化或轉(zhuǎn)分化發(fā)育過程的結(jié)果。
骨關(guān)節(jié)炎(OA)
對于骨關(guān)節(jié)炎,最大的GWAS調(diào)查了826690人(177517例和649173例對照),其中超過99.3%的歐洲血統(tǒng)。
Steinberg等研究人員整合了匹配樣本中三種骨關(guān)節(jié)炎相關(guān)組織類型的基因型和分子數(shù)據(jù)(轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué))。在每個組織中,作者描述了與基因表達(eQTL)或蛋白質(zhì)水平[蛋白質(zhì)數(shù)量性狀基因座(pQTLs)]相關(guān)的遺傳變異,提供了這些關(guān)節(jié)組織的第一個全基因組分子QTL圖譜。將這些QTL圖譜與骨關(guān)節(jié)炎的GWAS結(jié)果相結(jié)合,發(fā)現(xiàn)骨關(guān)節(jié)炎原發(fā)組織中有五個可能的效應(yīng)基因(ALDH1A2、NPC1、SMAD3、FAM53A和SLC44A)。通過對低級和高級骨關(guān)節(jié)炎軟骨的比較,在轉(zhuǎn)錄組和蛋白質(zhì)組水平上確定了409個與軟骨退變相關(guān)的基因。
Coutinho de Almeida等人研究了來自63名患者的低級別和高級別骨關(guān)節(jié)炎軟骨中的mRNA和miRNA數(shù)據(jù),確定了142個miRNA和2387個mRNA與骨關(guān)節(jié)炎軟骨變性有關(guān),同時提供了骨關(guān)節(jié)炎軟骨中第一個miRNA-mRNA相互作用圖譜。
阿爾茲海默病(AD)
最大的AD研究調(diào)查了1126563人(90338例,1036225例對照)。另一項最近的阿爾茨海默病GWAS研究包含的個體總數(shù)較少(n=788989),但病例數(shù)較多(n=111326)。兩項研究都只包括歐洲血統(tǒng)的人群。
Morabito等研究人員以單細胞分辨率分析了191 890個人腦前額葉皮質(zhì)組織細胞核的匹配染色質(zhì)可及性(12個晚期AD,8個對照)和基因表達圖譜(11個晚期AD和7個對照)。確定了影響順式基因的細胞類型特異性、AD 相關(guān)調(diào)節(jié)元件(例如AD 相關(guān)細胞類型少突膠質(zhì)細胞中的 AD 相關(guān)基因 APOE 和 CLU)、膠質(zhì)細胞群中的AD相關(guān)TF(例如SREBF1) ,以及一種新穎的綜合相關(guān)網(wǎng)絡(luò)方法來識別共表達基因簇。后者揭示了少突膠質(zhì)細胞中SREBF1靶點的過度表達,強調(diào)了該TF在AD中的作用。
此外,最近對大量數(shù)據(jù)進行的多組學(xué)研究確定了AD腦區(qū)相關(guān)的疾病相關(guān)分子改變,如組蛋白修飾物H3K27ac和H3K9ac的增加,VGF下調(diào),ATP6V1A下調(diào),這被證明是一個很有前景的藥物靶點。Bai等人利用蛋白質(zhì)網(wǎng)絡(luò)對AD大腦(n=90)進行了分子研究。他們整合了蛋白質(zhì)組學(xué)和磷酸蛋白質(zhì)組圖譜,發(fā)現(xiàn)了173個與AD進展相關(guān)的蛋白質(zhì)。進一步的組學(xué)數(shù)據(jù)整合優(yōu)先考慮AD相關(guān)蛋白(前三位:AD相關(guān)基因APP、APOE和MAPT)和通路(例如淀粉樣蛋白和Tau通路)。
系統(tǒng)性紅斑狼瘡(SLE)
最大的系統(tǒng)性紅斑狼瘡GWAS已在208370人(13377例SLE病例,19993例對照)中進行,所有患者均為東亞后裔。最近的多組學(xué)SLE研究調(diào)查了 SLE患者的外周血樣本,重點是描述外周血單核細胞 (PBMC) 中的單細胞轉(zhuǎn)錄組、生物標(biāo)志物鑒定和了解疾病相關(guān)的分子機制。
一項多種族研究測量了來自162名SLE患者和99名健康對照者的超過120萬個PBMC的單細胞轉(zhuǎn)錄組數(shù)據(jù),報告了細胞類型特異性表達模式,基于表達的SLE病例和對照分類,并確定了共享和細胞類型特異性的順式eQTL。
最近的一項研究整合了分別從外周血中分離的外周血(65例和67例對照)以及純化的T(32 例和 28 例對照)和B細胞(38例和27例對照)的基因表達譜。比較 SLE 患者和對照,總共確定了750個差異表達基因 (DEG)。整合上調(diào)的SLE 基因與來自ENCODE的TF結(jié)合數(shù)據(jù),確定了共調(diào)節(jié)基因的網(wǎng)絡(luò),并揭示了SLE相關(guān)途徑(例如SLE干擾素特征)。進一步的整合步驟包括(i)疾病相關(guān)基因(DAG,在SLE GWAS中確定)和(ii)公開可用的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)確定了從DAG通過TF到血液中差異表達基因的分級調(diào)控過程。
Robinson等人基于代謝組學(xué)數(shù)據(jù)調(diào)查了年輕患者的SLE異質(zhì)性,以調(diào)查他們的心血管(CV)疾病風(fēng)險,這是青少年發(fā)病SLE患者的主要死亡原因。
多組學(xué)數(shù)據(jù)的整合完善了我們對相關(guān)組織疾病病因的分子機制的認識。目前樣本量、人群多樣性和疾病相關(guān)細胞類型的限制仍然存在。新興的監(jiān)測多種形態(tài)的單細胞和空間多組學(xué)技術(shù)將為疾病相關(guān)細胞類型的特征提供更高的分辨率,從而產(chǎn)生超出批量數(shù)據(jù)固有限制的信息。許多與疾病相關(guān)的組織類型很難獲得(例如,OA的關(guān)節(jié)組織、AD的腦組織)。克服這一限制的一個有希望的替代方法是使用類器官。
未來的進一步挑戰(zhàn)包括預(yù)測疾病病程和選擇最佳治療方案,特別是在疾病早期。這種臨床相關(guān)生物標(biāo)記物的識別需要強有力的研究,以適當(dāng)?shù)臉颖玖勘O(jiān)測疾病發(fā)展過程中不同時間點的臨床特征和多組學(xué)數(shù)據(jù)。因此,作者強調(diào)了縱向和時程研究的重要性。
//
由于篇幅有限,專有名詞全稱、更多技術(shù)/研究細節(jié)可參考文獻原文 :
https://doi.org/10.1016/j.tig.2022.08.005
對于文獻整理過程中有翻譯不當(dāng)或錯誤也歡迎大家在評論區(qū)留言指出,互相交流學(xué)習(xí)!
首發(fā)公號國家基因庫大數(shù)據(jù)平臺
參考文獻
Kreitmaier P, Katsoula G, Zeggini E. Insights from multi-omics integration in complex disease primary tissues. Trends Genet. 2022 Sep 19:S0168-9525(22)00225-6.?
圖片均來源于參考文獻,如有侵權(quán)請聯(lián)系刪除。