Construction of a solid Cox model for AML patients based on multiomics bioinformatic analysis
基于多組學生物信息學分析,構(gòu)建AML患者的實體Cox模型
發(fā)表期刊:Front Oncol
發(fā)表日期:2022 Aug 10
影響因子:5.738
DOI:? 10.3389/fonc.2022.925615
一、研究背景
????????急性骨髓性白血病(AML)是一組高度異質(zhì)性的血液惡性腫瘤,具有各種細胞遺傳學和分子異質(zhì)性的特征。一些研究表明,AML患者骨髓(BM)微環(huán)境的變化在很大程度上促進了白血病發(fā)生、抗藥性和白血病復發(fā)的不同生物過程。AML的BM微環(huán)境由白血病細胞、基質(zhì)細胞、內(nèi)皮細胞和不同的免疫細胞亞群組成。
????????白血病的免疫微環(huán)境呈現(xiàn)出免疫失調(diào)和抑制,導致抑制性T細胞和效應性T細胞的不平衡,T細胞衰竭,與正常骨髓組織相比,骨髓源性抑制細胞(MDSCs)和支持白血病的巨噬細胞增加。最近關于白血病免疫微環(huán)境特征的研究可以幫助尋找新的預后生物標志物和潛在的治療目標。
二、材料與方法
1、數(shù)據(jù)來源
1)TCGA:151例的mRNA數(shù)據(jù)、188例的miRNA數(shù)據(jù)和140例的甲基化數(shù)據(jù);篩選后有97名患者進行研究
2)獨立驗證隊列,GSE106291數(shù)據(jù)集(251個樣本)
3)單細胞RNA序列數(shù)據(jù)集GSE116256,包括16個未處理的樣本(D0),被用來揭示免疫細胞類型中樞紐基因的分布
4)免疫基因集,包括776個基因
5)實驗:55名新診斷的AML患者
2、分析流程
1)候選基因的篩選和分層聚類:DESeq2分析mRNA和miRNA表達的差異;使用methylmix軟件包來分析基因甲基化水平和mRNA表達值之間的相關性;基于生存相關的免疫基因(SIGs)進行無監(jiān)督的層次聚類,建立TCGA-AML患者的免疫基因組分類
2)免疫浸潤分析:單樣本基因集富集分析(ssGSEA);ESTIMATE算法,計算基質(zhì)、免疫和估計分數(shù)
3)蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡的構(gòu)建和基因本體論功能富集分析:mRNA相互作用數(shù)據(jù)來自STRING數(shù)據(jù)庫;使用DAVID進行GO富集分析
4)生存分析和預后模型的構(gòu)建:構(gòu)建Cox回歸模型、LASSO、生存分析
5)scRNA數(shù)據(jù)集分析:采用Seurat和SingleR軟件包來生成統(tǒng)一模態(tài)近似和投影(UMAP)圖,并揭示樞紐基因在每種免疫細胞類型中的分布
6)分子對接:使用AutoDock Vina 1.1.2進行分子對接的虛擬篩選,預測最可能的最佳配體;從蛋白質(zhì)數(shù)據(jù)庫檢索了樞紐基因的三維結(jié)構(gòu);從ZINC15類藥物數(shù)據(jù)庫中提取了2115種FDA批準的化合物庫
流程圖
三、實驗結(jié)果
01 - 基于對患者預后有顯著影響的免疫相關基因的AML分類
????????為了更廣泛地研究AML中的免疫基因,從TCGA數(shù)據(jù)庫中檢索了97個樣本的轉(zhuǎn)錄組、microRNA和DNA甲基化譜數(shù)據(jù)并整合了臨床信息。采用Cox比例風險回歸模型對97個樣本mRNA表達數(shù)據(jù)中的776個免疫相關基因進行分析,確定了98個顯著影響AML患者生存的生存相關免疫基因(SIGs)。
????????利用98個SIGs的無監(jiān)督聚類分析,根據(jù)基因表達特征,將這97個樣本聚類為三個不同的免疫亞型(Im1:免疫群1,Im2:免疫群2,Im3:免疫群3)(圖1A)。如免疫基因熱圖所示,大多數(shù)SIG在Im1和Im3群中高表達,但在Im2群中低表達(圖1B)。Kaplan-Meier生存分析顯示,Im2群組的預后明顯好于Im1和Im3群組(圖1C)。
????????由于免疫微環(huán)境與AML的發(fā)生和發(fā)展明顯相關,因此利用單樣本基因集富集(ssGSEA)算法來探索三個免疫群中免疫微環(huán)境的差異。結(jié)果顯示,Im2集群的浸潤性免疫細胞比Im1和Im3集群少(圖2A)。一致的發(fā)現(xiàn)表明,Im2簇的免疫評分明顯較低(圖2B),而Im2簇的腫瘤純度明顯較高,但Im1和Im3簇的腫瘤純度則明顯較低(圖2C)。可以得出結(jié)論,免疫浸潤少、免疫分數(shù)低的患者可能比免疫浸潤多、免疫分數(shù)高的患者預后好。
02 - 通過對數(shù)據(jù)綜合分析,篩選出19個樞紐基因
????????基于Im2群和Im1/3群在免疫浸潤和生存趨勢上的顯著差異,作者將Im2定義為缺乏免疫浸潤的亞型(IL型),Im1/3定義為免疫浸潤豐富的亞型(IR型)。為了揭示IL和IR亞型之間不同預后的潛在機制,對兩種類型的AML患者的mRNA表達譜進行了詳細分析。進行差異表達基因分析,發(fā)現(xiàn)1936個差異表達基因(DEGs)在IL和IR亞型之間存在顯著差異。有42個SIG-DEGs是1936個DEGs和98個SIGs的共同成員(圖3A,B)。
????????為了闡明IL和IR亞型預后差異的機制,從STRING網(wǎng)站獲得了42個DEG-SIGs的相互作用數(shù)據(jù),然后用Cytoscape構(gòu)建蛋白-蛋白相互作用(PPI)網(wǎng)絡(圖3C)。基因本體論(GO)功能富集分析區(qū)分了三個子本體中的一些富集術(shù)語:生物過程(BP)、細胞成分(CC)和分子功能(MF)(圖3D)。在BP方面,42個DEG-SIGs富集在防御反應、炎癥反應和免疫系統(tǒng)過程中。在CC方面,42個DEG-SIGs富集于整合素復合體、質(zhì)膜外側(cè)和細胞表面。對于MF,42個DEG-SIGs在細胞部分、三級顆粒和整個膜中富集。這些結(jié)果可能部分地說明了42個DEG-SIGs影響AML患者預后的潛在機制。
????????考慮到白血病發(fā)生和發(fā)展的復雜機制,接下來進行綜合多組學分析,以確定與預后相關的樞紐基因。比較IL和IR亞型之間患者的miRNA表達譜,發(fā)現(xiàn)有93個miRNA有明顯的差異表達(圖4A)。使用DIANO TOOLS/microT-CDS共鑒定了7294個目標miRNA基因(TDEmiRs)。通過綜合生物信息學分析,從42個DEG-SIGs和7294個TDEmiRs中選出了IL和IR亞型之間的15個常見差異表達基因(圖4C)。
????????對mRNA和甲基化特征的綜合分析表明,355個基因的mRNA表達水平和甲基化程度之間存在明顯的負相關。當這355個甲基化相關基因(MethylCor)與42個DEG-SIGs交叉比對時,發(fā)現(xiàn)了6個與免疫浸潤相關的常見基因,以及IL和IR亞型之間的差異表達、甲基化和預后(圖4B,C )。
03 - 構(gòu)建了一個基于5個hub基因的預后模型
????????在觀察到IL和IR類型之間的免疫浸潤、基因表達和臨床行為的明顯差異后,作者接下來結(jié)合microRNA和表觀遺傳調(diào)控數(shù)據(jù),建立了一個基于19個免疫相關DEGs的LASSO-Cox比例危害回歸模型。利用LASSO模型,建立了一個基于5個樞紐基因的分類器來預測AML的預后(風險分數(shù)=-0.086×ADAMTS3 + 0.180×CD52 + 0.472×CLCN5 - 0.356×HAL + 0.368×ICAM3)(圖5A, B )。KM圖顯示了不同亞型患者之間的OS差異(圖5C),ROC曲線表明該模型可以有效預測AML的1年、3年和5年的預后(AUC分別=0.82、0.83、0.99)(圖5D)。與早期的分析一致,發(fā)現(xiàn)TCGA-AML資料的151個mRNA樣本有類似的預測性能(圖5E, F )。
????????為了進一步測試這個模型,從GEO數(shù)據(jù)庫中獲得了驗證隊列(GSE106291),1年、3年和5年的KM圖和ROC曲線證實了基于5-hub基因的模型的預后價值(圖5G,H)。按疾病分類分層后,結(jié)果顯示,IL型的風險得分明顯低于IR型。這些評價表明,基于5-hub基因的模型可以在傳統(tǒng)分配的風險組中識別出一批高危患者,并可指導臨床實踐。
????????為了驗證基于5-hub基因模型的預后價值,收集了200名新診斷的AML患者中檢測到的6575個基因突變和55名新診斷的AML患者(新橋醫(yī)院)中檢測到的38個基因突變。常見的突變基因是DNMT3A、IDH1、NRAS、RUNX1和TET2。在這個模型分類中,通過卡方檢驗考慮,高風險與RUNX1和TET2的突變有明顯關系。對55名有預后信息的患者進行KM分析表明,RUNX1(圖6A)和TET2(圖6B)突變的患者與預后不良相關,中位生存期較短。
04 - hub基因在AML患者的免疫細胞中的多樣化分布
????????為了探索這5個樞紐基因在AML發(fā)病機制中的價值,作者進一步確定了單細胞測序數(shù)據(jù)集GSE116256,利用Seurat軟件包進行聚類,SingleR軟件包進行注釋,描述這5個樞紐基因在免疫細胞中的分布(圖7A)。如散點圖(圖7B)和小提琴圖(圖7C)所示,CD52、ICAM3和CLCN5在粒細胞、單核細胞、T淋巴細胞、B淋巴細胞、樹突狀細胞和NK細胞中廣泛表達,而ADAMTS3在這些細胞中很少表達。HAL在粒細胞和單核細胞中高度表達,但在其他免疫細胞中很少表達。據(jù)此,我們假設這些樞紐基因通過調(diào)節(jié)特定細胞的基因表達發(fā)揮各種作用。蛋白質(zhì)圖譜數(shù)據(jù)庫中血細胞的樞紐基因表達進一步證實了這一結(jié)果。
05 - 對樞紐基因的最佳匹配化合物的調(diào)查
????????為了研究最合適的化合物,作者利用CD52、CLCN5、ICAM3的三維結(jié)構(gòu)和ZINC15數(shù)據(jù)庫中2115個FDA批準的化合物進行了分子對接的虛擬篩選。前兩個命中的化合物對各自靶點的預測結(jié)合親和力從高到低排列。這些蛋白質(zhì)和候選化合物的最可能的相互作用的二維可視化表示在圖8中。
四、結(jié)論
????????利用多組學分析和驗證方法,作者構(gòu)建并驗證了一個新型的、基于5個樞紐基因的模型,該模型可以進行穩(wěn)健的風險分層,并有利于鑒定AML的預后情況。通過scRNA測序分析,揭示了5個樞紐基因在免疫細胞中的分布。此外,對已知蛋白結(jié)構(gòu)的三個基因(CD52、CLCN5和ICAM3)進行了虛擬篩選,發(fā)現(xiàn)了與之結(jié)合能量最低的化合物,這為進一步尋找靶向抑制劑提供了思路。