Multi-Omics Signatures Identification for LUAD Prognosis Prediction Model Based on the Integrative Analysis of Immune and Hypoxia Signals
基于免疫和缺氧信號綜合分析的LUAD預后預測模型的多組學特征識別
發表期刊:Front Cell Dev Biol
發表日期: 2022 Mar 10
doi:10.3389/fcell.2022.840466
一、背景
????????肺癌是最常見和最嚴重的癌癥類型之一,并在全世界范圍內呈現出男女發病率和死亡率的主要原因。肺腺癌(LUAD)是肺癌最常見的組織學亞型,具有異質性結局和不同的治療反應。然而,對LUAD啟動和進展背后的潛在機制的理解仍然有限。越來越多的證據表明,免疫與缺氧在腫瘤微環境中的相互作用具有臨床意義。
????????腫瘤微環境(TME)由腫瘤細胞、內皮細胞、免疫細胞、成纖維細胞、巨噬細胞和細胞外基質組成,是癌變的關鍵調節因素,對LUAD的啟動、發展和進展以及對各種治療方法的反應有很大影響。TME的不同組成部分可以調節腫瘤的發展和進展。在免疫細胞中,活性氧(ROS)是幾種關鍵功能(如吞噬、抗原呈現和識別、細胞溶解以及表型分化)的媒介,并對T和自然殺傷(NK)細胞產生免疫抑制作用。
二、材料與方法
1.數據來源
TCGA隊列包括510個LUAD原發性實體瘤樣本和58個正常對照樣本的RNA-seq譜,561個LUAD樣本的WES數據,以及455個Illumina 450 k DNA甲基化陣列圖譜,為了消除多個樣品中FPKM的定量mRNA豐度引起的誤差,將FPKM轉換為TPM進行標準化。
2.實驗流程
1) 免疫狀態的定義:28個免疫細胞亞群的免疫相關基因(IRGs)來自Charoentong等人(2017)的研究;通過GSEA計算每個樣本的28種免疫細胞類型的富集得分(ES);生存分析;ESTIMATE算法通過估計不同浸潤基質和免疫細胞的比例來生成免疫評分;通過映射RNA-seq圖譜的樣本ID,也為WES和DNA甲基化圖譜的LUAD樣本構建了免疫相關隊列
2)缺氧-免疫相關亞型的鑒定:從分子標記數據庫(MSigDB v7.4)下載缺氧相關基因(HRGs);應用可用于一般非線性降維的均勻流形近似和投影(UMAP)算法來降低HRG表達譜的維度,并利用潛變量以 "ward.D "聚類法將患者分組
3)多組學數據分析和預后預測模型構建:兩個隊列之間的差異基因表達分析使用DESeq2軟件包;使用Fisher's精確檢驗來識別差異突變模式;使用CoMEt算法識別共生和互斥突變;單變量Cox回歸、lasso回歸、多變量Cox回歸
4)功能富集分析:GO分析;DEG和DMP相關基因的分析和GSEA是使用R包"clusterProfile "進行的;GSEA圖是使用R包 "enrichplot "生成的
三、實驗結果
01 - LUAD的免疫狀態和免疫相關的DEGs
????????作者通過GSEA計算了569個樣本(包括510個腫瘤樣本和58個正常樣本)中每個樣本的RNA-seq譜的富集度分數(ESs)。結果顯示,28個免疫細胞中的25個在腫瘤和正常樣本之間有明顯差異。除了活化B細胞、CD56dim自然殺傷細胞和活化CD4 T細胞外,大多數免疫細胞在正常樣品中明顯富集,而不是在腫瘤樣品中(圖1A)。此外還觀察到,幾種免疫細胞的富集程度在不同的腫瘤階段也有明顯的不同。根據所有腫瘤樣本中28種免疫細胞的ESs譜,定義了510個原發腫瘤樣本的免疫狀態,并使用 "ward.D "聚類法將相關的LUAD患者分為兩組,該方法旨在通過根據聚類方差的變化來選擇合并的聚類,從而找到緊湊的球形聚類(圖1B),兩組分別產生215和295名患者。存活率比較顯示兩組之間存在明顯差異,預后較好的組被標記為IMMUNITY_H,其他為IMMUNITY_L。
????????作者接下來探討了IMMUNITY_H和IMMUNITY_L隊列之間的表達變化,以確定免疫相關的DEGs,將差異倍數大于2且FDR小于0.001的基因視為差異表達,其中1118個和628個基因在IMMUNITY_H隊列中分別上調和下調(圖1C)。從結果中觀察到大多數趨化因子(如CCR5、CXCR6和CCL5)是宿主防御的關鍵介質,在IMMUNITY_H樣本中明顯上調,并協調免疫細胞招募到感染和炎癥部位。
????????使用clusterProfile軟件包對上調和下調的基因進行了功能富集分析。結果顯示,上調基因在免疫相關的生物過程中富集,如T細胞激活和白細胞增殖,這表明上調基因在增強腫瘤相關的免疫力方面發揮了積極作用(圖1D)。另一方面,下調的基因主要富集在與神經系統發育相關的生物過程中,這表明一些下調的基因通過影響神經系統發育來調節免疫和腫瘤細胞的活動。KEGG通路富集分析結果也顯示,上調的基因主要富集在免疫相關的通路中,而下調的基因則富集在與神經系統發育和代謝相關的通路中。
02 - 缺氧免疫相關亞型和相關預后DEGs的鑒定
????????為了探究每個樣本的缺氧狀態,作者提取了200個與缺氧有關的標志基因的表達,然后用UMAP處理。利用UMAP產生的潛在變量,進一步將患者分為兩組(圖2A)。兩組中分別有249和261名患者,生存分析顯示兩組之間有明顯的差異(圖2A)。預后較好的患者被分配到HYPOXIA_L組,其他患者被分配到HYPOXIA_H組。綜合考慮免疫和缺氧狀態,將患者分為三組,即"HYPOXIA_L & IMMUNITY_H"(n = 124),"HYPOXIA_H & IMMUNITY_L"(n = 170),以及 "MIX"(n = 216)。生存分析結果顯示,不同組別患者的OS時間有明顯差異(圖2B),"HYPOXIA_L & IMMUNITY_H "隊列中的患者預后最好,而 "HYPOXIA_H & IMMUNITY_L "的患者預后最差。
????????作者進一步研究了不同缺氧-免疫狀態的隊列之間各種臨床特征(如年齡、臨床分期、腫瘤大小、淋巴結和遠處轉移)的分散性。通過Cox比例風險回歸分析,觀察到OS時間與年齡無關。然而, "HYPOXIA_H & IMMUNITY_L "組的患者明顯比 "HYPOXIA_L & IMMUNITY_H "組的患者年輕(圖2C),這可能解釋了臨床觀察到的年輕肺部患者往往在診斷時傾向于出現晚期疾病,導致生存率極低。除此之外還觀察到吸煙年限較長的患者往往在高危("HYPOXIA_H & IMMUNITY_L")隊列中富集(圖2D)。作者還關注了免疫缺氧狀態與各種臨床因素之間的關聯,如性別和臨床分期。一般來說,性別與免疫缺氧狀態無關(圖2E)。對于臨床分期,觀察到I期患者傾向于預后好的 "HYPOXIA_L & IMMUNITY_H "隊列,而III期患者傾向于 "HYPOXIA_H & IMMUNITY_L "隊列(圖2E)。由于所選比較的患者中只有4.48%存在遠處轉移,只考慮 "N"(區域淋巴結)和 "T"(原發腫瘤)進行TNM分散分析。結果顯示,腫瘤大小較高的患者在 "HYPOXIA_H & IMMUNITY_L "組中明顯富集,而含有癌癥的淋巴結較多的患者在 "HYPOXIA_H & IMMUNITY_L "組中也明顯富集。這些結果進一步表明,預后較差的"HYPOXIA_H & IMMUNITY_L "組的患者往往是高風險的。
????????通過比較 "HYPOXIA_L & IMMUNITY_H "和 "HYPOXIA_H & IMMUNITY_L "隊列之間的表達,得到缺氧-免疫相關的DEGs,最后得到2798個DEGs。在 "HYPOXIA_H & IMMUNITY_L "隊列中,有1091個基因顯著上調,患者的生存率較低,被認為是風險DEGs(如GAPDH、NTS、LDHA和CDH2),而在"HYPOXIA_L & IMMUNITY_H "隊列中,有1707個基因顯著上調,患者的結果較好,被認為是保護性DEGs(如RCSD1、IL16、PRB4和VEGFD)。
03 - 比較不同缺氧-免疫狀態下的體細胞突變
????????在確定了與缺氧-免疫狀態相關的基因特征后,作者還探討 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列之間基因組水平的改變。這一部分使用了varscan2關于單核苷酸變體(SNV)、單核苷酸多態性(SNP)、插入(INS)和缺失(DEL)的結果。觀察到在 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列中,大多數基因組變異是錯義突變(約85%),而對于大多數類型,"HYPOXIA_H & IMMUNITY_L "隊列中的樣本所包含的變異數量明顯高于 "HYPOXIA_L & IMMUNITY_H"(補充圖S2)。所有SNVs的轉折(Tv)和過渡(Ti)之間的比率大約為2:1,并在兩個隊列中保持穩定。此外,還觀察到 "HYPOXIA_H & IMMUNITY_L "隊列中患者的TMB明顯大于 "HYPOXIA_L & IMMUNITY_H "的患者,這也表明 "HYPOXIA_H & IMMUNITY_L "是高風險狀態。
????????在 "HYPOXIA_H & IMMUNITY_L "隊列中,181個基因在10%以上的樣本中發生突變,而在 "HYPOXIA_L & IMMUNITY_H "隊列中只有44個基因符合這一標準,其中有42個基因是重疊的。圖3A顯示了相應隊列中前20個最頻繁突變的基因。從結果中觀察到TP53、TTN和MUC16是相應隊列中最頻繁突變基因的前三名。這些基因是相互作用的,并調節各種腫瘤相關的生物過程。接下來調查了前25個經常突變的基因的共現和排他性突變(圖3B)。與普遍存在的共同發生情況(280例)相比,兩個隊列中只有四個獨特的病例表現出相互排斥的突變,這表明它們可能在同一途徑中產生冗余效應,并且它們之間的選擇性優勢可以保留多個突變副本。為了提取體細胞基因組水平的特征,應用Fisher's檢驗來確定兩個隊列之間的差異突變基因,最后有54個基因被認為是顯著差異突變的(圖3C)。從結果中發現 "HYPOXIA_H & IMMUNITY_L "隊列中的基因突變頻率高于 "HYPOXIA_L & IMMUNITY_H "隊列。為了驗證同一突變可能對不同隊列患者的生存時間產生不同的影響,作者將"HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列的患者分為 "wt "組和 "mut "組。生存分析結果顯示,有幾個基因在一個隊列中可以將患者分成兩組,其OS時間明顯不同,而在另一個隊列中則不能。例如,在 "HYPOXIA_H & IMMUNITY_L "隊列中,有CRB1突變和無CRB1突變的患者的OS時間有明顯差異,而在 "HYPOXIA_L & IMMUNITY_H "中沒有這種明顯差異(圖3D),而TPR顯示了相反的結果(圖3D)。
04 - 比較不同缺氧-免疫狀態下的DNA甲基化水平
????????作者利用Illumina Infinium 450k DNA甲基化數據來識別和比較不同缺氧免疫隊列中DNA甲基化模式的影響,僅考慮分組為"HYPOXIA_L & IMMUNITY_H "或 "HYPOXIA_H & IMMUNITY_L "的患者。預處理后,使用 ChAMP 檢測差異甲基化探針 (DMP) 的 264 個樣本,其中不超過 20% 的探針缺失 β 值,確定了2082個缺氧免疫相關的DMPs(圖4A)。與"HYPOXIA_L & IMMUNITY_H "隊列相比,"HYPOXIA_H & IMMUNITY_L "隊列中發現了1844個(88.57%)涉及520個基因的低甲基化位置,而只有238個(11.43%)涉及128個基因的位置是顯著低甲基化。這些結果表明,"HYPOXIA_H & IMMUNITY_L "隊列總體上傾向于有低甲基化的位置。只有3個基因(ZC3H12D,XKR6,DIP2C)同時含有高甲基化和低甲基化的位置。在 "HYPOXIA_H & IMMUNITY_L "隊列的這520個低甲基化基因中,分別有29個和23個基因明顯上調和下調。相比之下,高甲基化的基因中只有4個上調和5個下調的基因。
????????功能富集分析結果顯示,低甲基化的基因主要參與感覺感知、離子運輸和離子平衡,而高甲基化的基因在發育和細胞反應中發揮潛在作用(圖4B)。這些DMP相關基因的基因集富集分析(GSEA)顯示,具有高活性β差異的高甲基化基因對各種癌癥相關途徑如自然殺傷細胞介導的細胞毒性、Wnt信號通路和MAPK信號通路具有更重要的貢獻(圖4C)。
05 - 利用多組學特征進行預后預測
????????在轉錄組層面,在 "HYPOXIA_H & IMMUNITY_L "隊列中共發現了1091個上調基因和1707個下調基因。在基因組水平上,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "隊列中分別發現了181和44個頻繁突變的基因。在DNA甲基化水平上,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "隊列中,位于645個注釋基因區域的2208個DMP中,有1163個是不同的甲基化。此外,根據單變量Cox比例風險模型,從這些基因改變中篩選出對患者總生存時間有顯著影響的缺氧-免疫相關的預后特征。之后,選擇了由230個DEGs、9個突變和97個DMPs組成的336項。考慮到大量的重要特征和它們之間可能的相互作用,應用LASSO Cox回歸模型來評估特征對預測生存的貢獻程度(圖5A),保留了39個特征(27個DEGs,8個突變,4個DMPs),用逐步法建立多變量的Cox比例風險回歸模型。
????????作者將TCGA樣本隨機分為訓練集(n = 295)和獨立測試集(n = 126),該過程重復5次。結果顯示,訓練模型的性能是滿意的,平均一致性指數(C-index)等于0.816。接下來,根據建立的模型計算每個樣本的風險分數,訓練集1年、3年和5年預后預測的平均AUC值達到0.841、0.86和0.853(圖5B)。關于測試集的預測,1年、3年和5年生存率的平均AUC值等于0.788、0.755和0.805(圖5B)。此外,根據風險評分中位數將樣本分為高風險和低風險隊列。K-M生存分析顯示,與低風險隊列相比,高風險隊列的總生存期更差(補充圖S3)。
????????作者進一步合并所有TCGA樣本,生成了由19個特征組成的總體預測模型,包括11個DEGs、7個突變和1個DMPs(圖5C),從中發現一些特征如DEGs FSIP2、LINC01697、FAM83A和ADM,最初似乎沒有統計學意義,但很可能與其他特征和結果相關。
????????簡而言之,MYT1L、DMD、AHNAK2和MUC5B的突變對更好的預后有明顯的積極貢獻,而其他的突變則起相反的作用。此外,與上述觀察相似,高危人群的總生存時間明顯短于低危人群(圖5D)。還觀察到,根據各自的AUC值,風險評分對1年、3年和5年生存率的鑒別力很高,分別為0.819、0.844和0.849(圖5E)。為了進一步證明整合多組學特征比使用單組學特征能提供更穩健的預后預測,作者對每種類型的組學數據采取了與上述相同的策略。結果顯示,沒有任何一個單組學特征可以提供比綜合模型更強的模型(補充圖S4)。
????????除了基因改變外,還考慮了一些可能也有預后能力的臨床因素,如分期、性別和年齡。發現臨床分期與總生存時間顯著相關,但性別和年齡與之無關(圖5F)。作者測試了不同的臨床因素與風險評分之間的關聯,發現III期和II期患者的風險評分明顯大于I期(圖5G)。結合這些臨床因素和風險評分,建立了一個整合模型,結果顯示,通過整合風險評分和分期信息,可以提高預后能力(C-index = 0.803)。此外,該模型在1年、3年和5年的生存預測方面也取得了更好的表現(圖5H)。因此,由上述19個基因改變組成的多組學特征可以產生準確的預后預測,基于這些多組學特征計算的風險分數可以被視為一個獨立的預后指標。
四、結論
????????基于TCGA的表達譜,作者旨在利用28個免疫細胞亞群的泛癌宏基因和缺氧相關基因的表達鑒定每個樣本的缺氧和免疫狀態。把缺氧-免疫狀態與多組學基因改變相關聯,以篩選出缺氧-免疫生物標志物,最后建立一個預后預測模型。本研究結果有望提供一個更全面的缺氧-免疫基因組圖譜,并可能為LUAD患者提供一個更好的預后預測器。