多組學數據整合和建模揭示了胰腺癌的新機制并改善了預后預測

Multi-omics data integration and modeling unravels new mechanisms for pancreatic cancer and improves prognostic prediction

多組學數據整合和建模揭示了胰腺癌的新機制并改善了預后預測

發表期刊:NPJ Precis Oncol

發表日期:2022 Aug 17

影響因子:10.092

DOI:? 10.1038/s41698-022-00299-z

一、背景

????????胰腺導管腺癌(PDAC)是最具侵略性的腫瘤之一,遠端轉移的患者預后最差。定義PDAC預后和治療反應的標志是由腫瘤細胞及其微環境部分的進展和串聯決定的,上皮腫瘤細胞已被廣泛地在分子水平上進行分型。

????????基于上皮細胞的特征,一組中心轉錄因子(TFs)定義了腫瘤細胞的表型。經典亞型的特征是導管細胞和生殖系TFs,如PDX1、HNF4A、HNF1A和GATA6,而基底樣亞型是由SNAI2、SIX1/4和TP63調節。其他TFs的誘導取決于腫瘤內和腫瘤外的因素,如缺氧和上皮-間質轉化(EMT)相關的蛋白,這有助于腫瘤的侵略性。

二、材料與方法

1.數據來源

1) 注冊號為NCT01692873,從三個專家臨床中心獲得,使用了90個異種移植(PDX)

2) RNA-Seq表達數據集:TCGA-PAAD、ICGC-PACA-AU Seq和PDX

2.實驗流程

1) 低等級獨立成分分析(LRICA)和預后相關成分提取:應用了改良版的低秩獨立成分分析(LRICA);PCA被用來將綜合矩陣分解成低級矩陣(L)和稀疏矩陣(S),分別捕捉原始數據集的構成動態和去噪;用ProDenICA R軟件包中的ProDenICA算法將L矩陣去卷積成獨立的因素;ICA去卷積的結果是W和S矩陣,分別代表樣本的正態矩陣和每個成分的基因貢獻矩陣;在S矩陣上對每個成分的生物相關性和方向性進行加權,分別使用e1071和fgsea R包計算峰度過剩和基因集富集分析(GSEA),選擇具有高峰度和富集在一組與生物相關的途徑中的成分;對W矩陣的KM分析,按照預后標準進行了進一步的成分區分;應用主成分分析(PCA)確定預后估計的成分權重,然后在PCA樣本維度坐標上采用Cox比例危險模型

2) 從大量RNA推斷基質細胞類型的豐度及其與預后的關系:應用MCP-count算法來估計樣本的免疫浸潤和轉錄組數據的基質細胞豐度;特定的淋巴細胞T和B標記物的子集被用來確認細胞亞型的特異性

3) 主調節器(MR)梯度的生成和驗證:將每個預后相關成分的轉錄因子(TFs)的核心作為表型驅動因素,將其貢獻加權到全局分數中;MR-梯度的估計和可靠性在Puleo隊列和ICGC-PACA-AU陣列中得到驗證

4) 與MR-梯度分層相關的病人來源的異種移植(PDX)的分析:使用Limma R軟件包對PDX的上皮腫瘤細胞(人類)和基質矩陣進行差異表達分析,比較特定的正交基因以估計MR-梯度轉錄因子的富集情況;將PDX的基質表達矩陣(小鼠)與上皮腫瘤細胞矩陣(人類)相加,計算出MR-梯度模型;應用MineICA R軟件包中的ICA JADE算法和spearman相關性來提取與MR-Gradient相關的PDX表型;將TCGA-PAAD/ICGC-PACA-AU Seq綜合矩陣中的ICA成分與PDX矩陣相關聯,以評估PDX模型的再現程度

5) DNA甲基化分析:CpGs基因集富集分析(GSEA)是使用missMethyl R軟件包進行的

6) SUV39H1/2對PDPCC的抑制和RNA-seq分析、KAT2B siRNA 轉染和 RNA-seq 分析

7) 功能分析:為了確定與所選ICA成分和差異表達分析有關的途徑,使用fgsea R軟件包進行了基因集富集分析(GSEA),該軟件包在預先排名的基因列表和MsigDB信號數據庫上進行GSEA

8) PDX的CNV分析、蛋白質提取和Western Blot、免疫熒光和核定位的定量分析、免疫熒光和信號量化

9) 脂質組學分析:共檢測到28個亞家族,每個亞家族的每個樣品的中位數被計算出來,選擇與MR-梯度模型有顯著統計相關性的脂質亞家族;用主成分分析法(PCA)對所選亞家族中與MR-梯度相關度較高的代謝物進行分析,通過PCA維度坐標應用于Cox比例風險模型,對代謝物對PDAC預后的貢獻進行加權

10)葡萄糖和谷氨酰胺的代謝:3名高危和3名低危患者身上提取的1mm2的PDX外植體

三、實驗結果

01 - 通過轉化細胞和微環境成分的解卷轉錄組分層提高了PDAC的預后預測能力

????????來自三個RNA表達數據集的數據,產生了一個可以捕捉PDAC異質性的發現隊列,本研究實驗數據來自90個病人衍生的異種移植(PDXs)和兩個來自公共數據集(TCGA-PAAD和ICGC-PACA-AU Seq)。作者將低秩ICA(LRICA)應用于發現隊列的分析,還使用穩健的主成分分析(RPCA)將表達矩陣分解為低秩(L)矩陣和稀疏(S)矩陣(圖1a)。這種方法能夠分離腫瘤細胞群的底層生物學(L)和噪聲(S),而不改變表達矩陣的整體結構和數據集之間的接近性(圖1b)。隨后應用了ProDenICA,目的是增加可以從L矩陣中獲得的信息。在這種方法中,每個成分的選擇和方向性是由超額峰度(評估正常值分布)和GSEA測量的生物相關性決定的,這導致了五個成分(圖1c)。支持這種方法的驗證,作者發現了一個被稱為PAMG的成分,它捕捉到了腫瘤上皮細胞的表型,顯示出對原代細胞和鱗狀表型的強烈極化(圖1c)。此外,該方法區分了兩個微環境特異性成分,包括一個主要由成纖維細胞相關特征定義的成分,如MYCAF和ICAF(補充圖1a)。第二個是免疫學成分,它捕獲了造血系和炎癥過程(圖1c)的信息。最后,還確定了一個神經分泌物和一個細胞周期成分。因此,這種方法產生了更合適的加權信息,即在數據的數學結構中存在的生物信息類型,并有助于胰腺癌相關過程的基于生物信息學的建模。

????????接下來,作者確定了上述組件與患者總生存期(OS)的關聯,使用TCGA-PAAD和ICGC-PACA-AU Seq作為下游分析的發現隊列。排除了人類異種移植數據集以避免與缺乏微環境區間有關的任何偏差。KM生存分析顯示,患者的OS與PAMG、基質、免疫學和細胞周期成分高度相關,不良預后與細胞周期和EMT途徑的激活相關(補充圖1b)。另一方面,預后良好的患者與脂質代謝和免疫學途徑的富集高度相關(補充圖1b)。免疫學相關途徑決定了基質成分內的預后情況,強調了將微環境成分作為預后標記的重要性。

????????為了權衡KM分析的重要組成部分對預后的貢獻,在PCA坐標上應用了PCA和Cox比例-hazards模型。該分析表明,維度3(Dim 3)和維度4(Dim 4)都與OS明顯相關,其中Dim 3的貢獻最強(圖1c,補充圖1c)。這一觀察結果被多變量cox回歸分析所證實,Dim 3仍與OS明顯相關。維度3主要由免疫學成分代表,相關系數為0.68(圖1d)。此外,對基質區間的進一步反卷積表明,有利的預后與T細胞和B細胞呈現正相關,而與成纖維細胞的豐度呈現負相關(圖1d; 補充圖1d)。具體來說,細胞毒性細胞標志物CD8A和兩個漿細胞標志物CD27和CD38與Dim 3成正相關。綜上所述, PDAC的預后不是由腫瘤細胞或微環境單獨決定的,而是通過它們的綜合貢獻決定的。因此,通過強調這種相互依存關系,應有助于更好地概念化地尋找和開發標記物和靶向藥物。最后,發現根據PAMG將PDAC分層為一個分子梯度,當免疫學成分的貢獻加強時,可以明顯區分患者的臨床結果(圖1e)。

圖1 PDAC生物相關成分測定
補充圖1 選定成分的特征

02 - 轉錄調控網絡分析提供了病理生物學信息,并為病人分層產生了有用的分子標志物

????????作者對上述兩個公共數據集上進行了轉錄調控網絡分析,以揭示支配每個有助于預后預測的成分的關鍵上游調節器。將分析的重點放在對LRICA成分有高貢獻的相關轉錄因子(TFs)上,即PAMG以及免疫和基質成分,這些轉錄因子顯示出與OS的顯著關聯。首先,使用ARACNe算法為每個成分構建了一個調控轉錄網絡(RTN),用于通過GO注釋識別的TFs。使用這種方法,共檢測到113個TFs,代表121個調節子。隨后,通過測試與特定成分相關的每個調節子的富集程度,確定了TF集內的主調節器(MR),檢測到54個絕對富集分數>1的MR。PAMG顯示了一個緊湊的相互作用網絡(圖2a),主要由祖先相關的調節子驅動,其中HNF4A、NR1I2和GATA6的貢獻最大。鱗狀MR網絡與SNAI2、MYBL1和HMGA2有關。此外,觀察到免疫學MR網絡極化為調節性和促炎性節點(圖2a),其特點是與Treg細胞(FOXP3和STAT5)和B/T細胞激活(IKZF1和NFATC2)相關的TFs。最后,基質成分的特點是代表多種微環境細胞類型的多態性TFs。然而,觀察到免疫學相關調節因子的富集,如MAFB、BCL6B、IKZF3和SP1(圖2a)。

????????一旦建立了每個預后相關成分的轉錄調控網絡,作者假設MR可以準確推斷病人的預后,以無偏見的方式捕捉細胞的整體表型。為了測試這個想法的有效性,對每個MR應用了Cox單變量比例風險模型來評估它們的預測能力。發現HMGA2、SNAI2、GATA6和ZFPM1與預后的關聯度最高,與評估所用的隊列無關(補充圖2)。為了生成捕獲上皮和微環境特征的一致分層,用從轉錄網絡分析中提取的MR建立了一個統一的梯度,每個梯度的計算,用每個MR(i)和病人(j)的富集分數(ES)來加權基因表達(GE),然后按比例求和。該分析顯示,來自PAMG和免疫學轉錄因子的綜合貢獻優于其他成分,即使合并起來,也能估計發現隊列(補充圖2a),ICGC-Array(補充圖2b)和Puleo(補充圖2c)中患者的預后。作者將這種新的連續分層方法稱為MR-梯度。值得注意的是,這種MR-梯度法簡化了預后估計,它使用了一組40個MR,同時捕捉了上皮和微環境特征。

補充圖2MR梯度在PDAC人類隊列中的驗證

????????然后,對發現的隊列實施了ICA JADE算法,以揭示與MR-梯度相關的全局表型。ICA2顯示出與MR-梯度的正相關,顯示出CHOLESTEROL_HOMEOSTASIS和FATTY_ACID_METABOLISM途徑的預后良好,而不利的表型與HYPOXIA、EMT和CELL_CYCLE途徑的上調相關聯(圖2c)。最后,評估了這個PDAC預后價值,以捕捉先前建立的亞型。發現ICA2包含了在腫瘤細胞和微環境水平上決定患者預后的關鍵特征,分別代表了原基/鱗狀譜和激活的基質(圖2d)。這些結果共同表明,基于MR的精細PDAC梯度是一個強大的臨床可操作工具,可用于患者分層。

圖2 轉錄主調節器(MR)的梯度和腫瘤表型的特征

03 - 患者來源的異種移植(PDXs)再現了PDAC預后相關的關鍵特征

????????為了在多組學水平上擴展PDAC特征,作者使用90個PDXs,這些PDX已經證明了它們作為推導具有重要醫學相關性的分子特征的工具的實用性。由于PDX隊列經歷了數據驅動的解構,以明確代表上皮細胞(人類)和微環境(小鼠),這可能是由宿主貢獻的,作者進行了差異表達分析,以驗證表征這兩個隔間的MR。在人類腫瘤細胞和小鼠微環境中,代表PAMG和免疫學區間的MR分別顯示出較高的表達水平(圖3a)。GSEA顯示代謝和上皮細胞分化途徑在PDXs的人類部分富集,以及造血和ECM途徑在小鼠基質區塊的上調(圖3a)。

????????隨后,重組了PDX表達矩陣,加入了人類和小鼠區間的表達矩陣,以估計MR-梯度,從而權衡其對患者結果的預測能力。單變量Cox回歸分析顯示,PDX衍生的MR-Gradient與患者OS之間存在明顯的正相關關系(圖3b)。此外,測量了PDX和發現隊列之間的轉錄組學的相似性,以驗證其作為定義預后特征的可靠代表的用途。使用ICA JADE算法將PDX混合矩陣解讀為潛在的生物空間,確定ICA2與MR-梯度高度相關(圖3b)。該成分顯示了在發現隊列中觀察到的相同的表型極化,捕捉到原基和鱗狀的特征,加上微環境衍生的ICAF和活化基質(圖3c)的預后不良特征。此外,來自發現隊列的ICA2和來自PDX組的ICA2在轉化細胞和基質水平(圖3d),保持了PDAC關鍵細胞特征的基因貢獻的方向性,例如細胞骨架蛋白和代謝轉運體等等(圖3e)。

圖3 患者衍生的異種移植再現了PDAC預后的關鍵決定因素

04 - CpG甲基化譜有助于定義PDAC的轉錄組表型

????????作者首先分析了MR的DNA甲基化水平。大體上,決定祖先表型的關鍵MR顯示出強烈的高甲基化,并與不良預后有關,特別是ZFPM1、GATA6和HNF4A(圖4a)。此外,還進行了ICA,以捕捉與患者預后相關的甲基組圖譜。共有12162個重要的(SD≥3)CpG被選入組件,其甲基化程度被分析為每個病人的β值的中位數。與祖先相關的TR一樣,觀察到DNA甲基化水平的增加與MR-Gradient的減少有關(圖4b)。這一成分富集了與脂質代謝途徑有關的CpGs,包括GLYCEROPHOSPHOLIPID METABOLISM和FATTY ACID TRIACYLGLYCEROLISM。這些結果在TCGA-PAAD隊列上得到證實,其中23,448個CpGs在所選成分中顯示出高貢獻度(圖4d-f)。因此,MR的DNA甲基化狀態作為一種潛在的表觀遺傳機制,有助于PDAC預后相關的表型。

圖4 CpGs甲基化概況與MR-梯度的關系

05 - SUV39H1 / 2和KAT2B是兩種基于組蛋白的拮抗途徑,有助于建立PDAC轉錄組學譜

????????作者探索了多個組蛋白修飾因子和讀取物(作為額外的表觀遺傳調節因子)與我們的表型類別的相關性,以調節轉錄結果的機制,發現149個蛋白質與MR-梯度有明顯的相關性。發現SUV39H1、SUV39H2和KAT2B(圖5a),它們是對H3K9殘基有明顯拮抗作用的writer,即甲基化的抑制(SUV39H1/2)與乙酰化的激活(KAT2B)。值得注意的是,與SUV39H1/2相反,發現KAT2B的基因組缺失發生在25%的隊列中(圖5b),這一數據被TCGA證實(圖5c)。這種染色體缺失顯示出與KAT2B啟動子甲基化的平衡,調節其表達,從而調節預后表型。此外,KAT2B下調是鱗狀表型的一個重要特征(圖5c)。因此,作者在一組代表MR-梯度極值的PDX樣本中量化了特定的表觀遺傳標記,即SUV39H1和SUV39H2的H3K9me3和KAT2B的H3K9ac。此外,用兩個著名的激活標記H3K4me3和H3K27ac作為參考來補充組蛋白標記分析,這兩個標記分別顯示了與PDAC表型相關的一般和極化表達模式。H3K9me3和H3K9ac顯示出相反的模式,其中三甲基化標記在高危患者的表觀遺傳學景觀中占主導地位,大約有60%的陽性核(圖5d)。相反,K9乙酰化在結果良好的群體中普遍存在,同時還有高水平的H3K27ac。用H3K4me3染色作為對照標記,因為它顯示了獨立于表型的同質表達水平(圖5d)。

圖5 鑒定與PDAC預后表型相關的關鍵表觀遺傳修飾因子

????????功能驗證是通過分別抑制或耗盡SUV39H1/2或KAT2B進行的。用10nM的Chaetocin,對6個PDX衍生的原始細胞培養(PDPCC),降低了H3K9me3水平,并伴隨著祖細胞相關基因的上調(圖6a)。通過使用一組特定的KAT2B siRNA,H3K9ac的水平被降低(圖6b)。KAT2B的下調導致鱗狀表型,這在具有中性CNV的PDPCC中更為明顯。

圖6 SUV39H1/H2和KAT2B的調控決定了PDX衍生的原始細胞培養(PDPCC)的表型

06 - 將MR-Gradient與支撐預后相關表型的代謝組功能聯系起來

????????作者分析了代謝網絡在我們的MR-梯度的背景下是如何表現的,以及它與預后的關系。利用PDX的表達和中心代謝途徑中關鍵酶的編碼基因的甲基組圖譜建立了一個代謝圖(補充圖4)。發現諸如ACSS1、ACACB和HMGCR等分別參與醋酸代謝、FA合成和膽固醇代謝的酶與MR-梯度呈正相關。這種親脂代謝反映在與甘油磷脂和鞘脂途徑的復雜脂質生物合成有關的酶的高表達上。相反,不利的表型增強了以Warburg效應和谷氨酰胺分解為中心的OXPHOS獨立代謝,其中氨基酸的合成和甘油三酯(TG)在脂滴中的積累起到了核心作用。

補充圖4 MR-梯度后的PDAC代謝圖

????????這些觀察結果通過72個PDXs的脂質組學分析得到證實,其中檢測到28個亞家族;然而,只有6個顯示出與MR-Gradient的顯著關聯(圖7a)。具體來說,磷酸甘油酯與MR-梯度顯示正相關,而TG和神經酰胺代謝物,如單己基甘油酰胺和鞘氨醇,與預后不良有關。對所選亞家族高度相關的代謝物進行PCA后的Cox回歸分析(圖7b)顯示TG和神經酰胺代謝物與預后有很大關系,分別占維度1貢獻的53.84%和24.6%。此外,在PDXs中評估了SPHK1和PLIN2的表達,以驗證這些蛋白分別作為與鞘脂代謝和TG積累相關的不良預后的標志物。值得注意的是,SPHK1和PLIN2在高風險(76%-85%)中顯示出更多的陽性細胞,而它們在低風險(2%-12%)患者中的代表性也與EMT標志物vimentin正相關(圖7c)。最后,通過測量PDX外植體上清液中的相應代謝物,證明高危患者表現出對無氧糖酵解和谷氨酰胺酵解的依賴。高危患者與低危組相比,葡萄糖的消耗和乳酸的產生分別高出1.4和2.6倍(圖7d)。一致的是,高風險樣本中谷氨酰胺的消耗和谷氨酸的產生分別增加了0.4和0.7倍(圖7d)。這些結果強調ATP來源和脂質代謝是預后相關表型的決定因素。

圖7 MR-Gradient捕獲與PDAC預后相關的關鍵代謝特征

四、結論

????????目前的研究為通過轉錄網絡、DNA甲基化、表觀基因組調節器和代謝組學對患者預后進行有價值的預測提供了強有力的整合,這些機制具有預后和機理價值,并揭示了對抗這種疾病的潛在治療目標。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容