基于非m6A相關新抗原編碼lncRNA特征構建膠質瘤評分模型

Scoring model based on the signature of non-m6A-related neoantigen-coding lncRNAs assists in immune microenvironment analysis and TCR-neoantigen pair selection in gliomas

基于非M6A相關新抗原編碼lncRNAs特征的評分模型有助于膠質瘤的免疫微環境分析和TCR-新抗原配對選擇

發表期刊:J Transl Med

發表日期:2022 Oct 29

影響因子:8.440

DOI:? 10.1186/s12967-022-03713-z

一、研究背景

????????膠質瘤是最普遍的腦腫瘤,5年生存率不超過3%。導致膠質瘤難治的一個因素是相對較低的免疫反應,即"免疫冷"或免疫抑制的反應。在大多數情況下,癌癥產生于基因突變或DNA損傷的積累。新抗原來源于這些非同義的基因突變,包括單核苷酸變異(SNV)、染色體缺失和插入、基因融合和替代剪接。由于所呈現的新抗原可能會引起T細胞介導的抗腫瘤免疫,專門針對腫瘤細胞,因此它們被認為是有前途的免疫治療目標。

????????lncRNAs的翻譯可以被許多因素調節,包括小的或短的開放閱讀框架(smORF或sORF)、eIF4E和N6-甲基腺苷(m6A)修飾。eIF4E是一種翻譯起始因子,在磷酸化后與RNA的5′帽弱結合,從而誘導抑制mRNA的翻譯,促進lncRNA和核糖體之間的相互作用。此外,m6A修飾已被證明可以影響mRNA的翻譯。研究表明,m6A修飾的位點可作為環狀RNA的翻譯起始點。

二、材料與方法

1、數據來源

1)mRNA測序數據從TCGA數據庫下載:169個多形性膠質瘤(GBM)樣本和529個低級別膠質瘤(LGG)樣本

2)驗證數據從中國膠質瘤基因組圖譜(CGGA)數據庫下載:"mRNAseq_325 "和 "mRNAseq_693",在此分別標為CCGA325和CCGA693;在CGGA693數據集中包括249個GBM樣本和444個LGG樣本

3)單細胞測序(scSeq)數據來自GEO數據庫:GSE84465,包含3589個細胞

4)還包括來自CGGA數據庫的另一個數據集,包含6148個細胞

5)GSE129671被用于SCENIC分析

6)細胞的注釋與一項同樣使用GSE84465數據集的研究中描述的一樣,經過輕微的修改

7)TCR測序數據從GEO數據庫獲得,兩個數據集GSE79338和GSE188620被用于分析

8)LN229、U118MG、A172、U251MG和Jurkat細胞

9)患者和組織:WHO II級(n = 3)、III級(n = 3)和IV級(n = 3)的石蠟包埋膠質瘤組織;正常腦組織(n = 3)來自顱腦外傷患者;WHO II級(n = 4)和IV級(n = 4)的冷凍膠質瘤組織

2、分析流程

流程圖

三、實驗結果

01 - 非m6A修飾在高等級膠質瘤中被激活,NAS預測膠質瘤患者的預后

????????首先,收集TCGA數據集中非M6A相關調節因子的表達水平。非m6A修飾根據其水平分為以下三類:1)高到中等水平的修飾,有數百到數千個修飾位點(Ψ和m5C);2)超低水平的修飾,有少數修飾位點(m1A);3)未知水平的修飾,需要進一步確認(如N4-乙酰胞苷[ac4C],2'-O-甲基化[Nm],和7-甲基鳥苷[m7G])。

????????接下來,前兩類的修飾,包括Ψ、m5C和m1A,被選為要研究的主要非m6A修飾。通過相關性分析并在R中用“igraph”包構建相關網絡選擇與神經膠質瘤患者總生存時間顯著相關的lncRNA,根據TransLnc,確定了潛在的肽編碼lncRNAs,其中的肽可以被MHC I呈遞,因為MHC I是內源性抗原的主要貢獻者,包括腫瘤衍生的抗原。總共發現了13個lncRNAs,其中5個的HR大于1,8個的HR小于1。

????????建立新抗原活化評分(NAS)模型的過程見圖1A。根據非M6A相關的新抗原編碼lncRNAs的表達進行共識聚類。來自TCGA的膠質瘤樣本被分為兩個聚類,以獲得每個聚類中最高的相關性,主成分分析(PCA)顯示了聚類1和聚類2之間的分布差異。作者確定了這兩個簇中選定的非m6A調節因子的表達,結果表明,大多數writers和readers在簇2中被上調(圖1B)。對于erasers,FTO和TET2在群集1中明顯升高,而ALKBH1和ALKBH3的水平在兩個群集之間沒有明顯差異(圖1B)。這表明與群集1相比,群集2中的非m6A修飾狀態增強。在群集2中,HR大于1的lncRNAs表達水平明顯高于群集1,而HR小于1的lncRNAs表達水平明顯較低(圖1C)。然后用SVM算法學習群集1和群集2的基因表達特征,并在驗證數據集中重現聚類模型,在CGGA325數據集中觀察到類似的結果。此外,集群模型有效地預測了所有膠質瘤和LGG的預后。在該模型中,群集2表現出比群集1明顯更差的預后,而在GBM方面,群集之間沒有明顯差異。然而,在ROC分析中,集群模型的預后效果并不理想,非M6A相關的新抗原集群模型的AUC值為0.72(圖1G),甚至低于年齡(AUC=0.82)和grade(AUC=0.82)。

????????作者假設聚類模型的準確性受到其對TCGA樣本二元分類的限制。為了提高非M6A相關的新抗原聚類模型的準確性,在聚類1和聚類2之間的DEGs基礎上建立了一個NAS模型。該公式包括基因表達水平及其由PCA產生的權重,所以它提供了一個量化的參數。根據對聚類模型的分析,聚類2比聚類1顯示出更差的預后,與聚類1相比,所有HR>1的具有明顯預后效果的DEGs在聚類2中都有所升高。HR>1也表明一個基因的高表達與預后惡化有關。另外,所有HR<1的具有明顯預后效果的DEG在聚類2中都下調。因此,該公式基本上反映了RNA-seq樣本的基因表達模式與聚類2之間的相似程度。與集群模型相比,NAS模型更精確地區分了不同層次的膠質瘤亞型,并與選定的調節器或lncRNAs的表達高度相關(圖1B,C)。在CGGA325和CGGA693數據集中計算NAS時,也得到了類似的結果。此外,NAS模型在預測TCGA(圖1D)、CGGA325(圖1E)和CGGA694(圖1F)數據集中GBM患者的預后時表現良好,因為高NAS組呈現較短的平均生存時間。在這三個數據集中的所有膠質瘤和LGG組都有類似的結果。非M6A相關NAS模型的AUC值為0.88,遠遠高于集群模型,年齡和等級的值也是如此(圖1G)。

????????為了確定非m6A相關NAS模型和m6A相關NAS模型之間的差異,以類似的方式構建m6A相關NAS模型。m6A聚類模型的AUC值為0.59,而NAS模型為0.87(圖1G)。然后將所有3個數據集(TCGA、CGGA325和CGGA693)的數據合并,再次計算所有模型的AUC值。結果表明,非m6A相關NAS模型的AUC值為0.76,比m6A相關NAS模型(AUC=0.66)大。這表明在所有三個數據集中,非m6A相關模型比m6A相關模型有更好的預后準確性。因此,非m6A相關的NAS模型被選為進一步研究的對象。

圖1 NAS模型的構建和比較

02 - 高NAS與膠質瘤的侵襲性亞型相關聯

????????為了確定NAS與膠質瘤亞型之間的關系,采用NMF聚類法,將樣本按照Verhaak分類分為三個聚類。結果顯示,在三個亞型中,間質(MES)亞型的平均NAS最高,而俯臥神經(PN)亞型在所有三個數據集中的平均NAS最低(圖2A-C)。MES亞型是最具侵略性的亞型,與不良的生存結果有關,而PN亞型顯示出最低的侵略性水平。因此,NAS與膠質瘤的侵襲性呈正相關,正如Verhaak分類法使用大量測序數據所預測的那樣。

圖2 NAS與膠質瘤的侵襲性呈正相關

????????GSE84465數據集中膠質瘤細胞的scSeq數據被聚類和注釋(圖S6A),每個聚類中的標記基因被確定(圖S6C)。使用同樣的程序在CGGA scSeq數據集上再現了結果(圖S6B,D)。此外,還使用SVM將細胞分為兩個聚類。基于聚類模型,使用R中的 "DEsingle "包探索DEGs,并計算NAS。聚類2與t分布隨機鄰居嵌入(t-SNE)還原圖中NAS相對較高的細胞廣泛重疊(圖2D,E),Mann-Whitney檢驗證實了這些結果(圖2F)。此外,還發現在GSE84465和CGGA數據集中,低腫瘤細胞的NAS明顯低于高腫瘤和炎癥相關的膠質瘤細胞(圖2G)。然后將GSE84465數據集中的細胞分為四個先前建立的單細胞水平的分子亞型,然后通過分析剪接和未剪接RNA的豐度來計算GSE84465數據集中膠質瘤細胞的RNA速度,以便對膠質瘤細胞的進化過程進行分析。第2組中的大多數細胞處于其革命過程的末端(圖2H)。同時,MES和少突膠質細胞祖細胞樣(OPC)亞型位于革命途徑的末端(圖2I),表明大多數膠質瘤細胞隨著時間的推移變得更具侵略性。NAS隨著膠質瘤細胞的發展而增加(圖2J),表明NAS反映了膠質瘤細胞革命的階段。這些結果也通過偽時間分析得到證實(圖S6I)。此外,細胞軌跡分析顯示,在GSE84465(圖S6E,G)和CGGA數據集(圖S6F,H)中,OPCs和高新生膠質瘤細胞處于細胞軌跡的頂端,而低新生細胞處于細胞軌跡的上游。腫瘤性高的膠質瘤細胞比腫瘤性低的細胞有更高的NAS,這一事實表明,當這種發展伴隨著更高的NAS時,膠質瘤細胞會發展成更具侵略性。這些數據共同表明,NAS和膠質瘤的侵略性之間存在正相關關系。

圖S6 scSeq數據集中不同細胞簇的細節

03 - 較高的NAS膠質瘤與較高的免疫浸潤水平相關聯

????????為了確定參與NAS水平差異的生物功能,作者對低或高NAS的TCGA樣本的DEGs進行富集分析。GSVA富集分析顯示,在GO和KEGG途徑中,高NAS的樣本在T細胞介導的免疫、NK細胞介導的細胞毒性以及抗原處理和表達方面顯示出較高的富集分數(圖3A,B)。GO富集分析在T細胞相關功能、抗原處理和呈現方面有非常相似的結果(圖3C),以及在KEGG數據庫中富集的重要途徑,包括免疫相關途徑,如NK細胞介導的細胞毒性、趨化因子信號途徑和抗原處理和呈現(圖3D)。scSeq數據的GSEA富集分析顯示,高NAS組的抗腫瘤免疫因子(圖3E)。然而,在這個數據集中,細胞-細胞粘附力被下調。對CGGA數據集中scSeq數據的分析也顯示,高NAS組的T細胞相關功能得到促進(圖3F)。總之,NAS和非M6A相關的新抗原編碼lncRNAs與T細胞相關的免疫和抗原處理和表達有關。

圖3 基于TCGA和scSeq數據集的低或高NAS組之間的生物功能富集情況

????????為了確定NAS和免疫浸潤之間的關系,采用了R中的 "ESTIMATE "包來評估TCGA數據集中樣本的免疫浸潤。NAS與免疫評分呈正相關,與腫瘤純度呈負相關(圖4A),表明較高的NAS意味著較高的免疫浸潤水平。對CGGA325和CGGA693數據集的樣本分析顯示了類似的趨勢。之后,用CIBERSORT詳細分析了浸潤的免疫細胞的變化,結果表明,雖然CD8 + T細胞和T輔助細胞的比例升高,但調節性T(Treg)細胞的比例增加,而激活的NK細胞的比例下降(圖4B,C)。鑒于較高的NAS提示較差的生存結果和更具侵略性的腫瘤,分析了不抑制膠質瘤細胞的較高免疫浸潤的可能機制。當膠質瘤等級上升時,PD-L1的表達升高,表明免疫抑制程度更高(圖4D)。還發現四個lncRNAs(即AC060766.4、AC0738962、LEF-AS1和LINC00893)的表達與PD-L1呈正相關(圖4E)。因此,很明顯,高NAS組的免疫浸潤高于低NAS組,PD-L1表達的增加可能抑制了T細胞介導的免疫的激活。

圖4 基于TCGA大量RNA-seq數據的免疫景觀

????????用IHC檢測了NAS相關基因和PD-L1的表達。在NAS中,PC1+PC2是影響最終結果的主要指標。檢查了NAS與TMSB10、VIM和PD-L1的表達之間的相關性(圖5A)。結果顯示,NAS與TMSB10、VIM和PD-L1的表達明顯相關。然后用IHC檢測TMSB10、VIM和PD-L1的表達。結果發現,更高級別的膠質瘤表現出更高的TMSB10、VIM和PD-L1水平(圖5B,C)。這些結果表明,與NAS和PD-L1正相關的基因在較高等級的膠質瘤中表達較多,這也表明較高的NAS可能與較多的PD-L1表達有關。

圖5 NAS相關基因(TMSB10和VIM)和PD-L1的IHC結果

04 - 高NAS組的T細胞陽性調節因子的異常表達可能導致T細胞功能失調

????????作者分析了T細胞的功能,它們是抗腫瘤免疫的直接執行者。與Ca2+通量(AHNAK和CALML3)、DNA修復(ZNF830)和自噬(HOMER1)相關的基因在TCGA數據集的高NAS組中被明顯下調(圖6A)。對CGGA325和CGGA693數據集的分析也取得了類似的結果,其他調節器在高NAS組中被上調。

????????此外,TCGA樣本的SNV數據顯示,這33個基因的TMB在高NAS組高于低NAS組,沒有統計學意義,AHNAK對高和低NAS組貢獻了大部分的突變(圖6B,C)。同樣,第2組的樣本比第1組的樣本顯示出更多與這33個基因有關的突變負擔。高等級膠質瘤的T細胞可能是對Ca2+通量、DNA修復、自噬和醛酮代謝的干擾。在這些基因的功能中,由AHNAK介導的Ca2+通量被強調,因為該基因在研究的33個基因中顯示了最多的突變。然后,作者試圖通過體外功能試驗來驗證Ca2+在T細胞功能中的作用。細胞內Ca2+螯合劑BAPTA-AM以0、10、20和40μM的濃度作用于Jurkat細胞48小時,然后檢測細胞內鈣,在BAPTA-AM組中鈣明顯下降(圖6D)。Jurkat細胞的增殖也受到BAPTA-AM處理的明顯抑制(圖6E)。對于共培養試驗,結果表明,IFN-γ的分泌在BAPTA-AM組也受到抑制(圖6F)。BAPTA-AM組中剩余的LN229細胞的增加也表明激活的Jurkat細胞的功能受到抑制(圖6G,H)。綜上所述,在高NAS樣本中,異常的Ca2+通量可能在T細胞介導的膠質瘤生長抑制失敗中發揮了重要作用。

圖6 TCGA數據集中T細胞正向調節器的表達及其突變情況

05 - 高NAS膠質瘤與參與干性的轉錄因子有關

????????為了確定TCGA、CGGA325和CGGA693數據集的上游調節轉錄因子網絡,采用了X2K。將低NAS組和高NAS組的DEGs導入X2K,然后得到TCGA(圖7A)、CGGA325(圖7B)和CGGA693(圖7C)數據集的前20個上游調節轉錄因子。注意到前20個轉錄因子中的一些在所有三個數據集中是共同的,如SUZ12、REST、EZH2、SMAD4和AR。SUZ12、REST和EZH2基因有助于癌細胞的干性,它們在高NAS組中表現出更高的表達水平(圖7D)。這些結果表明,在RNA-seq數據中,較高的NAS與促進干性轉錄因子的表達有關。

????????在scSeq數據方面,應用pySCENIC構建轉錄因子的調控網絡。計算了GSE84465數據集中的差異性激活轉錄因子(圖7E)。前5個被激活的轉錄因子被證明,干性相關的基因,在較高的NAS細胞中被激活,而在較低的NAS細胞中,前5個被激活的轉錄因子中沒有觀察到此類基因。然而,在CGGA scSeq數據中,得到了相反的結果。作者在數據集GSE129671中進行了另一次驗證。在五個最活躍的轉錄因子中,高NAS組的MYC結果為促進細胞干性。

圖7 在高NAS組中,與干性相關的轉錄因子的活動增強

????????為了研究膠質瘤標本中干性相關和NAS相關基因的表達,作者應用lasso來確定NAS的主要促成因素。通過合并TCGA、CGGA325和CGGA693數據集,確定了五個基因,簡化的NAS可計算為:NAS=0.22864885*(COL5A2表達水平)+0.1083532*(PVP1表達水平)+0.07381116*(CHI3L2表達水平)+0.03597545*(SERPINE1表達水平)+0.02452755*(SOCS3表達水平)。得出的NAS與所有三個數據集的NAS高度相關(圖8A)。然后在4個II級和4個IV級膠質瘤中用qRT-PCR檢測這五個基因。結果顯示,所有五個基因在IV級膠質瘤中都有所升高,COL5A2和PVR1顯示出統計學意義(圖8B),表明IV級膠質瘤的NAS更高。而上述分析所確定的五個干性相關基因也被檢測到,包括EZH2、SUZ12、REST、SOX10和MYC。結果顯示,只有EZH2在IV級膠質瘤中明顯升高(圖8C)。這五個基因在病人衍生的膠質母細胞瘤干細胞和分化細胞中也被檢測到。它表明EZH2和SOX10在干樣細胞中明顯升高(圖8D)。這些結果表明,大多數樣本和數據集的高NAS組存在較高的干性。而EZH2是檢測中最明顯升高的干性相關基因。

圖8 膠質瘤標本和膠質瘤細胞系中干性相關基因的表達水平

????????作者應用R語言中的"celltalker "包來分析細胞間的交流,以確定高NAS組中T細胞功能被抑制的潛在機制。在低NAS組中,低腫瘤細胞在大多數重要的相互作用中是活躍的,通過ADAM12和ITGA9/SDC4途徑與樹突狀細胞和T細胞相互作用,兩者在總的相互作用圖中沒有點(圖9A)。相反,在高NAS組,大多數相互作用發生在T細胞和OPC或炎癥相關膠質瘤細胞之間(圖9B,C)。ADAM12和ITGA9/SDC4途徑是這些細胞之間的兩個主要途徑。

????????此外,還分析了T細胞與四種類型的膠質瘤細胞之間的重要相互作用,結果顯示,高NAS組的T細胞與低腫瘤性、炎癥相關膠質瘤細胞和OPC之間的相互作用比低NAS組多。此外,在CGGA數據集中,T細胞沒有參與低NAS組的大多數重要的相互作用,而在高NAS組,它們與其他免疫細胞相互作用。此外,關于顯著的相互作用,在高NAS組中,只有一些T細胞和炎癥相關膠質瘤細胞之間的相互作用是顯著的,表明炎癥相關膠質瘤細胞參與了T細胞介導的免疫。

????????值得注意的是,T細胞與NAS相對高于上述的高腫瘤性膠質瘤細胞之間沒有明顯的相互作用。因此推斷較少的T細胞結合和細胞-細胞粘附可能是基本機制。結果顯示,與其他三種膠質瘤細胞類型相比,IFNGR1和JAK1的表達明顯較高,但JAK2的表達沒有明顯差異(圖9D-F)。此外,IFNGR1被發現與NAS有明顯的負相關(圖8G),而JAK1和JAK2則沒有。還發現在CGGA數據集中,低腫瘤細胞顯示出較高的IFNGR1表達,但JAK1在低腫瘤細胞中的表達略有下降,IFNGR1和NAS之間存在明顯的負相關。這表明T細胞和膠質瘤細胞之間的相互作用增加,而高腫瘤細胞可能通過下調IFNGR1以減少T細胞的結合來逃避這種相互作用。

圖9 基于GSE84465的單細胞RNA-seq的細胞間通訊分析

06 - 預測具有兩種模式的TCR會與非m6A相關lncRNA的新抗原結合

????????為了確定一些基于非m6A相關新抗原模型的膠質瘤治療的可能方法,篩選了已發表的TCR測序數據集,以探索可能與13個選定的非m6A相關lncRNAs編碼的肽結合的TCR克隆型。來自GSE79338的LGG和GBM樣本,被用來識別GBM和LGG的獨特TCR克隆型。在尋找MHC限制性肽抗原的過程中,使用GLIPH2算法將TCR克隆型聚類為CDR3模式,在GBM和LGG樣本中發現了許多在正常組織中找不到的獨特的TCR CDR3模式。從這些TCR CDR3模式中,提取了52種LGG和GBM樣本中的常見模式(圖10A)。通過比較GBM和LGG中的模式的頻率,確定了兩組之間差異最大的10個模式(圖10A)。其中五個氨基酸模式在GBM模式中被上調,從而暗示這些模式可能廣泛存在于膠質瘤患者中,并可能與膠質瘤的進展有關。接下來,應用DLpTCR算法來評估13個選定的lncRNA編碼的MHC I呈遞肽與上述GBM或LGG樣本中5個選定模式的TCR克隆型之間的識別和結合可能性。MNEQ和HDEQ是具有最大結合概率的模式(圖10B)。

????????為了探索5種選定的模式,檢查了GSE188620數據集中四個膠質瘤患者在腫瘤細胞裂解液接種前后的膠質瘤組織的scTCR數據。在接種疫苗后的樣本中發現了獨特的克隆型(。然而,對于5個選定的模式,雖然HDEQ和RNKQ表現出極低的表達量,但其他三個模式的表達量卻明顯較高。此外,接種疫苗后,%GSTDTQYF和MNEQ的總表達量明顯升高,同時FGEQ也有輕微的、統計學上不明顯的下降(圖10C)。患者1、3和4中%GSTDTQYF的表達量升高,但只有患者4中發現有統計學意義(圖10D)。患者1和2顯示出MNEQ表達的升高(圖10D)。還確定了疫苗接種后擴大的克隆型(圖10E),這可能包括新抗原反應性TCR克隆型。確定了擴大的TCR克隆型和肽的結合可能性,有44個TCR-肽對的結合概率超過0.98;這表明潛在的新抗原反應性TCR克隆型和選定的肽之間有很高的結合可能性。總之,作者確定13個選定的lncRNAs可能編碼的肽與潛在的新抗原反應性TCR克隆型有很高的結合概率,這些克隆型在膠質瘤組織中廣泛存在。

圖10 與正常組織相比,在膠質瘤中篩選出獨特的TCR模式

四、結論

????????作者建立了一個基于非M6A相關的新抗原編碼lncRNAs和NAS的預后模型,發現它們與T細胞免疫、抗原處理和表達以及免疫浸潤呈正相關關系。還篩選了由所選lncRNAs翻譯的普遍靶向的新抗原的可能TCR克隆型。這項研究詳細說明了non-m6A修飾在lncRNA編碼的多肽中的重要作用,它提供了TCR克隆型,可用于未來潛在的CAR-T研究和治療。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容