Multi-omics Data Analyses Construct TME and Identify the Immune-Related Prognosis Signatures in Human LUAD
多組學(xué)數(shù)據(jù)分析構(gòu)建TME并識別人類LUAD中與免疫相關(guān)的預(yù)后特征
發(fā)表期刊:Mol Ther Nucleic Acids
發(fā)表日期:2020 Sep 4
影響因子:7.032
DOI:??10.1016/j.omtn.2020.07.024
一、研究背景
肺癌是所有癌癥類型中發(fā)病率和死亡率最高的癌癥。許多流行病學(xué)調(diào)查和實驗研究認為,LUAD的發(fā)生和發(fā)展主要與環(huán)境因素和基因改變有關(guān)。到目前為止,與基因相關(guān)的治療策略主要有兩類,即靶向治療和免疫治療。
TME通常被定義為腫瘤周圍的環(huán)境,其中包括細胞外基質(zhì)、血管以及免疫細胞和神經(jīng)元等細胞角色,所有這些都與腫瘤的進展和治療結(jié)果有很大的關(guān)系。越來越多的研究通過實驗闡明了TME浸潤在各種癌癥類型的免疫治療反應(yīng)和耐藥中的貢獻作用,并探討了它們對患者預(yù)后的影響。
二、材料與方法
1?數(shù)據(jù)來源
TCGA:535個LUAD樣本和59個正常對照樣本的RNA-seq圖譜數(shù)據(jù),561個LUAD樣本的WES數(shù)據(jù),以及504個Illumina 450k DNA甲基化陣列的圖譜數(shù)據(jù)
?2?分析流程
1)TME構(gòu)建:采用ESTIMATE算法構(gòu)建TME免疫評分的中位數(shù)分為高免疫組(n = 268)和低免疫組(n = 267);使用CIBERSORT計算每個樣本的浸潤免疫含量;對于WES和甲基化譜的LUAD樣本,通過映射RNA-seq譜的樣本ID構(gòu)建了一個高免疫隊列和一個低免疫隊列
2)多組學(xué)數(shù)據(jù)分析:分析高免疫隊列和低免疫隊列之間的基因表達、體細胞突變和DNA甲基化的差異;WES數(shù)據(jù)用于檢測SNVs、SNPs和INDELs;CoMEt算法識別共存和互斥突變,包maftools用于創(chuàng)建體細胞突變的可視化;R包ChAMP用于處理甲基化陣列數(shù)據(jù),篩選出缺失值超過20%的樣本,使用451個樣本,進一步分為高免疫隊列219個樣本和低免疫隊列232個樣本;limma軟件包和Bumphunter算法分別識別差異甲基化探針和區(qū)域;利用Pearson相關(guān)性研究探針信號與基因表達水平之間的相關(guān)性,并從所有探針中隨機選取與真DMP集相同數(shù)量的探針,構(gòu)建100個隨機集
3)功能豐富性分析:R軟件包clusterProfiler
4)臨床相關(guān)性:Kaplan-Meier生存分析
5)預(yù)后預(yù)測模型的建立和評價:單變量Cox、lasso回歸模型、多變量Cox;R軟件包timeROC繪制ROC曲線評價模型
三、結(jié)果展示
01 -?在LUAD建造TME并剖析浸潤性免疫內(nèi)容
為了評估浸潤的基質(zhì)細胞和免疫細胞的腫瘤相關(guān)效應(yīng),通過使用ESTIMATE算法,根據(jù)TCGA表達譜初步建立TME。ESTIMATE產(chǎn)生一個被稱為 "estimate score"的指數(shù),全面推斷腫瘤的純度。如圖1A所示,與正常樣本相比,LUAD樣本的estimatescore分布明顯偏低,基質(zhì)得分和免疫得分也是如此。
接下來,研究腫瘤純度與臨床因素之間的關(guān)系。如結(jié)果所示(圖S1A),estimate score在腫瘤大小、遠處轉(zhuǎn)移和腫瘤階段上有顯著差異。對比顯示,I期樣本的estimate score明顯高于III期和IV期樣本。此外,與高分(高于中位數(shù))隊列中的患者相比,低estimate score(低于中位數(shù))隊列中的患者預(yù)后較差(圖S1A)。
從TNM分期系統(tǒng)方面來看,不同腫瘤大小的免疫評分有顯著差異,但淋巴結(jié)和遠處轉(zhuǎn)移沒有差異(圖1D-1F)。綜合TNM分期分類方面,如圖1B所示,早期和晚期的免疫評分有顯著差異,其中I期的免疫評分顯著高于III期和IV期。相比之下,基質(zhì)評分僅與遠處轉(zhuǎn)移顯著相關(guān),而非腫瘤大小、淋巴結(jié)和分期(圖S1B)。較高的免疫評分與較長的總生存時間顯著相關(guān)(圖1C),而基質(zhì)評分與患者預(yù)后無顯著相關(guān)性(圖S1B)。
由于免疫浸潤水平和細胞組成與腫瘤進展和患者結(jié)局密切相關(guān),將LUAD樣本利用其免疫評分中位數(shù)分為高免疫隊列和低免疫隊列,并利用CIBERSORT進一步表征細胞組成,探討免疫細胞亞群與臨床特征之間的關(guān)系。剔除CIBERSORT產(chǎn)生的P值大于0.05的樣本。共保留468個樣本,其中203個屬于低免疫力隊列,265個屬于高免疫力隊列。
將每個樣本的免疫含量剖析為22種免疫細胞成員。高免疫隊列中記憶B細胞、CD8 T細胞、活化的記憶CD4T細胞、M1巨噬細胞、靜止的樹突狀細胞、活化的肥大細胞和γdelta T細胞的比例明顯較大,而漿細胞、M0巨噬細胞和活化的樹突狀細胞的比例較小 (圖1G)。在考慮免疫評分與上述檢測到的臨床因素之間的關(guān)系的同時,推測不同的免疫細胞成員可能對患者的結(jié)果有不同的貢獻,檢測到記憶B細胞、CD8 T細胞、M0巨噬細胞、M2巨噬細胞和活化樹突狀細胞在TNM階段、腫瘤大小或淋巴結(jié)上有顯著差異,而其他細胞亞群在所有臨床因素中似乎沒有統(tǒng)計學(xué)意義(圖1H)。此外,盡管組合顯示出辨別力(圖1C),單一類型的細胞成員對LUAD的患者總體生存率貢獻不大(圖1H)。
02 -?免疫浸潤依賴性差異化表達基因的鑒定
利用TCGA的LUAD樣本表達譜來鑒別高免疫組和低免疫組之間的表達變化,其中高免疫隊列中分別有611個和164個基因上調(diào)和下調(diào)(圖2A)。發(fā)現(xiàn)CXCR4和CCL8等29個趨化因子顯著上調(diào)(圖2B),這些因子能夠調(diào)節(jié)多種免疫細胞對腫瘤的招募。
使用clusterProfiler進行功能富集分析,發(fā)現(xiàn)上調(diào)的基因富集在免疫相關(guān)的生物過程中(圖2C),表明它們在增強腫瘤相關(guān)免疫力方面具有積極作用。此外,一些上調(diào)的基因如LILRB4、RUNX3和CXCR3已在先前的研究中被實驗驗證為調(diào)節(jié)T細胞活化和支持腫瘤浸潤。另外,下調(diào)的基因主要富集在代謝過程中(圖2D),推測一些下調(diào)基因利用代謝開關(guān)調(diào)控免疫細胞和腫瘤細胞的活動。
03 - 不同免疫滲透水平下的體細胞突變比較
在檢測到上述部分的轉(zhuǎn)錄改變后,進一步研究了是否有證據(jù)表明高免疫力和低免疫力隊列的基因組層存在差異。基于TCGA門戶網(wǎng)站的WES數(shù)據(jù),如圖3A和圖S3A所示,在高免疫力和低免疫力人群中,大多數(shù)基因變異都是錯義突變(約60%)。從全局的角度來看,低免疫隊列的樣本持有的變異數(shù)量明顯多于高免疫隊列的樣本。
SNV方面,高免疫和低免疫隊列中所有樣本共檢測到64,344和88,708個SNV,其中C>A是高免疫隊列和低免疫隊列中最常見的類型。無論SNV的類型如何,低免疫隊列中的突變數(shù)都顯著高于高免疫隊列中的突變數(shù)(圖3B)。所有SNVs的轉(zhuǎn)座(Tv)和轉(zhuǎn)座(Ti)之間的比例約為2:1,并且在兩個隊列中保持穩(wěn)定(圖S3D)。此外,高免疫隊列中的SNPs、INSs和DELs也被低免疫隊列中的SNP超過(圖3C)。相比高免疫力隊列中的樣本,低免疫力隊列中的樣本具有明顯較高的變異等位基因分數(shù)(VAFs)水平(圖3D)。盡管兩個免疫隊列中4種類型的體細胞突變的變異數(shù)量存在顯著差異,但所有變異中所占據(jù)的每個突變類型的內(nèi)成分比幾乎保持不變(圖S3A-3C),這表明所觀察到的突變數(shù)量的差異不是由類型轉(zhuǎn)移引起的。
在低免疫力隊列中,129個基因在10%以上的樣本中發(fā)生了突變,而在高免疫力隊列中,只有62個基因符合這一標準,其中有56個基因發(fā)生了重疊。相應(yīng)隊列中最常突變的15個基因見圖3E,TP53、TTN和MUC16在兩個隊列中都占據(jù)了前三位的位置,而且它們之間存在相互作用。
接下來,利用CoMEt算法研究了前25個最常突變基因的共現(xiàn)和排他性突變情況,與普遍的共現(xiàn)情況相比,有兩個隊列(KRAS-TP53、KRAS-TNR和STK11-TP53)中有3個獨特的病例在表現(xiàn)出排他性突變(圖3J),這表明它們可能在同一途徑中產(chǎn)生冗余效應(yīng),并且它們之間具有選擇優(yōu)勢,可以保留一個以上的突變拷貝。
有些基因在兩組之間有差異性突變頻率。檢測到268個差異突變基因,按p值升序排序,前10名如圖3F所示。不同的變異可能會對患者的其他基因改變甚至臨床結(jié)果產(chǎn)生不同的影響。沒有SNPs的KRAS的表達水平在高免疫和低免疫隊列之間有顯著差異,但當(dāng)SNP rs121913530(C>A)存在時,則相反(圖3I)。此外,STK11是另一個典型的例子,以證明兩個隊列之間不同的突變點(圖3G)和預(yù)后影響差異的合理連鎖反應(yīng)(圖3H)。
04 -?TIME描繪LUAD的DNA甲基化模式
未能維持正常的DNA甲基化,其中包括CpG島的低甲基化和CpG貧乏區(qū)域的低甲基化,增加了觸發(fā)腫瘤形成和惡化的敏感性。因此,接下來使用來自TCGA的甲基化數(shù)據(jù)檢測和比較不同免疫隊列中DNA甲基化模式的影響。
451個樣本中共鑒定了5,764個免疫相關(guān)的差異甲基化探針DMPs(圖4A)。與低免疫力人群相比,高免疫力人群共檢測到高甲基化位點5647個,涉及2386個基因,其中2221個位點位于1687個CpG島上。相比之下,低甲基化位點的數(shù)量大大超過了68個基因相關(guān)的117個位點,位于56個CpG島上。因此,高免疫群整體上傾向于有低甲基化的位置,但低甲基化只發(fā)生在少數(shù)基因上。此外,還發(fā)現(xiàn)許多DMP相關(guān)基因在兩個隊列之間有差異表達。從高免疫隊列中的2386個低甲基化基因中,有63個上調(diào)和32個下調(diào)的DEG(圖4B)。然而,從低甲基化基因組中,只檢測到7個上調(diào)的DEGs。
在基因本體分析的基礎(chǔ)上,對DMP相關(guān)基因的功能進行了研究。前15位富集的生物過程中,F(xiàn)DR最低的GO項表明它們在細胞分化和發(fā)育中的潛在作用(圖4G)。DMP相關(guān)基因的基因集富集分析(GSEA)表明,具有高度正β差異的高甲基化基因?qū)δ[瘤相關(guān)神經(jīng)生物學(xué)過程有更重要的貢獻(圖4D),說明異常甲基化誘導(dǎo)的腫瘤免疫攻擊行為是通過對神經(jīng)通路的識別和參與實現(xiàn)的。
考慮到先前關(guān)于DNA甲基化和基因表達水平之間相關(guān)性的發(fā)現(xiàn),推測在本研究中是否存在類似的現(xiàn)象,以及在不同的免疫水平上這種趨勢是否穩(wěn)定。結(jié)果表明,在2441個DMP相關(guān)基因中,高免疫組有329個正相關(guān)基因和926個負相關(guān)基因,低免疫組有346個正相關(guān)基因和939個負相關(guān)基因。與使用隨機選擇的探針構(gòu)建的100個隨機集的相關(guān)系數(shù)的相對平衡分布相比,與DMP相關(guān)基因相關(guān)的探針信號容易與表達水平負相關(guān)(圖4C)。
免疫水平不影響甲基化水平和表達水平之間的相關(guān)性,這由圖4E所示的兩個隊列間相關(guān)系數(shù)的高度一致性所支持,兩個隊列之間負相關(guān)(圖5B中的Venn圖)或正相關(guān)(圖5A中的Venn圖)基因集的大量重疊。在低免疫組和高免疫組中,這些一致的正相關(guān)和負相關(guān)基因分別在免疫系統(tǒng)和細胞增殖中富集,而趨勢不一致的基因則有其獨特的功能。例如,低免疫力隊列中獨特的正相關(guān)基因可以參與突觸相關(guān)功能(圖5A)。此外,正相關(guān)基因的探針更常位于基因體和3′UTR區(qū)域,而負相關(guān)基因的探針更傾向于與啟動子相鄰的區(qū)域(圖4F),說明DNA甲基化對表達的影響存在區(qū)域差異。
05 -?多組學(xué)特征提供準確的預(yù)后預(yù)測方法
為了從眾多的基因改變中找出免疫相關(guān)的預(yù)后信號,采用了基于lasso回歸和Cox比例危險回歸的策略。還分別研究了三種改變的聯(lián)合效應(yīng)和單獨效應(yīng),以確定哪種模型的性能最好。
首先,對于聯(lián)合效應(yīng),將所有的基因改變進行合并,其中由DEGs、5個突變和217個DMPs組成的337個變量,采用單變量Cox比例危險模型確定對患者的總生存時間的顯著獨立影響。采用lasso回歸模型刪除貢獻較小的變量,在最優(yōu)參數(shù) (圖6A)下,保留52個變量,建立多變量Cox比例危害回歸模型。隨機將TCGA樣本分為訓(xùn)練集和獨立測試集(n=142)。在結(jié)果中(圖S6),訓(xùn)練模型的平均協(xié)整指數(shù)(C-index)等于0.839。其次,根據(jù)建立的模型計算每個樣本的風(fēng)險評分,訓(xùn)練集上1年、3年、5年預(yù)后預(yù)測的AUC均值分別達到0.871、0.875、0.928。在測試集的預(yù)測方面, 1年、3年和5年生存期的AUC均值分別為0.796、0.786和0.777。此外,按風(fēng)險評分中位數(shù)將樣本分為高風(fēng)險和低風(fēng)險隊列(圖6F)。生存分析(圖6G)顯示,與低風(fēng)險隊列相比,高風(fēng)險隊列的總體生存率較差。
考慮到上述構(gòu)建的模型具有很好的魯棒性和有效性,再結(jié)合所有TCGA樣本,生成一個由27個變量組成的整體預(yù)測模型(圖6D)。此外,與上述發(fā)現(xiàn)一致,根據(jù)生存分析的結(jié)果,高危隊列的預(yù)后比低危隊列差(圖5F和5G)。不管是1年、3年還是5年的生存率,風(fēng)險評分都有很高的辨別力,AUC值分別等于0.861、0.850和0.916(圖6B)。
采用與上述相同的策略,判斷每類基因改變的單獨效應(yīng)是否具有同等甚至更優(yōu)的效益,以及高免疫和低免疫隊列之間的差異性突變是否能夠取代頻繁突變基因在預(yù)測模型中的作用。從圖S9所示的結(jié)果來看,無論表達變化、體細胞突變、差異性DNA甲基化,與聯(lián)合模型相比,沒有任何單一特征能夠提供足夠強大的預(yù)后預(yù)測。
此外,當(dāng)將頻繁的體細胞突變替換為差異性突變時,得到了一個基于23個變量的預(yù)測模型,但性能沒有改善(圖S10)。另外,考慮到這些差異突變的頻率相對較低,最終沒有保留這個模型。
除了基因改變外,一些臨床因素也可能對總生存時間有預(yù)測價值。雖然階段與總體生存時間顯著相關(guān),但與上述僅基于多組學(xué)改變構(gòu)建的總體模型相比,納入臨床因素的新模型的辨別能力并沒有提高,如圖6E所示。此外,這個新模型在其1年、3年和5年生存預(yù)測上并沒有取得更好的表現(xiàn)(圖6C)。只有由上述27種改變組成的多組學(xué)特征已經(jīng)可以產(chǎn)生準確的預(yù)后預(yù)測。
四、結(jié)論
在本研究中,旨在根據(jù)TCGA的表達譜,估計LUAD的TME浸潤模式,尤其是腫瘤相關(guān)免疫系統(tǒng),然后通過分析多組學(xué)數(shù)據(jù)(RNA-seq、全外顯子組測序和DNA甲基化陣列),將免疫狀態(tài)與遺傳或表觀遺傳特征相關(guān)聯(lián),最終從顯著的改變中建立預(yù)后預(yù)測模型。期待本研究結(jié)果能夠為人類LUAD提供更全面的免疫基因組學(xué)圖譜,并有可能找到更好的預(yù)后預(yù)測因子。