2022-07-07

Nature Cancer | 多模態數據集成改善卵巢癌風險評級

原創?蘇安?圖靈基因?2022-07-07 16:51?發表于江蘇

收錄于合集#前沿生物大數據分析

撰文:蘇安

IF23.177

推薦度:?????

亮點:

本文的研究團隊開發了一種算法模型,他們利用機器學習的方式對444例晚期漿液性卵巢癌患者的組織病理學圖像和放射影像學圖像進行分析,通過多種不同模式數據的集成,可以預測漿液性卵巢癌的風險評級并能改善患者的預后效果。

漿液性卵巢癌(HGSOC)是婦科惡性腫瘤最常見的死亡原因,轉移性疾病的5年生存率低于30%。因為不同患者對治療的反應不同,所以導致漿液性卵巢癌的預后效果較差。近期,在Nature Cancer雜志上發表了一篇名為“Multimodal data integration using machine learning?improves risk stratification of high-grade serous ovarian cancer”的文章,研究團隊利用444例漿液性卵巢癌患者的組織病理學結果和放射影像學結果,結合不同患者的臨床特征,開發了一種基于機器學習來預測并改善患者預后的模型。這個模型有助于幫助婦科腫瘤醫生對不同的患者選擇不同的治療方法,并能夠通過對患者臨床癥狀的監測,預測并改善患者的預后效果。


為了建立可靠的數據模型,作者的研究團隊首先將444例HGSOC患者的基因組學、組織病理學和放射學數據進行整合(圖1a)。隨后,他們檢測了來自CE-CT的卵巢和大網膜放射學特征的預后相關性,并建立了一個基于大網膜特征的模型(圖1b)和一個基于組織樣本的病理學模型來對患者進行風險分層(圖1c)。作者將這些模型在一個測試隊列上進行了驗證,并使用晚期融合多模態統計框架(圖1e)與臨床基因組信息進行了整合(圖1d)。結果表明,跨模態整合具備優勢,并且多模態機器學習模型可以改善HGSOC患者的風險評級。圖1.研究示意圖


為了量化不同患者的特征,作者分析了444例HGSOC患者,包括296名在紀念斯隆凱特琳癌癥中心接受治療的患者和148名來自癌癥基因組圖譜卵巢癌數據的患者。40個測試病例從整個患者池中隨機抽取,其余404名患者的數據用于模型訓練。在訓練隊列的404例患者中,其中43例患者有H&EWSIs,245例患者在治療前CE-CT中有附件病變,251例患者在治療前CE-CT上有大網膜植入(圖2a)。作者使用臨床測序來推斷HRD狀態,特別是與HRD DNA損傷反應(DDR)相關的基因變異,如BRCA1和BRCA2,以及那些特異性的分離串聯重復和折疊反轉富集的突變亞型CDK12和CCNE1(圖2b)。培訓隊列共包含218例HRP病例和119例HRD病例(圖2c),測試隊列包含12個HRD和28個HRP病例。圖2.所獲得的隊列和數據類型的概述


為了研究CE-CT成像與預后的關系。作者使用GE醫療系統CT掃描儀,在三名具有婦科腫瘤成像專業知識的放射科醫生幫助下,手動分割了所有附件腫塊和具有代表性的大網膜植入物。(圖3a)。隨后他們從Coif小波變換圖像中提取放射組特征,經過四分位數范圍濾波后,每個患者的每個部位產生放射組向量。使用訓練隊列,經過多重假設檢驗校正后,9大網膜特征(圖3b)和0個卵巢特征顯示出具有統計學意義的HRs(圖3c)。作者對9個大網膜特征的多變量顯著性模型進行迭代擬合,得到一個基于高-低-低(HLL)Coif小波變換的單變量模型(圖3d)。該特征的對數(HR)為1.68(校正后的P<為0.01;圖3e),并且對CT掃描儀制造商和放射科醫生保持不變。(圖3f)。通過數據集進行log-rank檢驗,Kaplan-Meier分析顯示,在訓練集上平均生存44-57個月(圖3g),在測試集上,平均生存38-47個月(圖3h)。圖3.高自相關的大網膜植入物與較短的OS相關


為了對病理學組織進行識別分類并建立模型,作者使用一種弱監督的方法從組織學圖像中訓練一個組織類型的分類器。他們在60個H&EWSIs上注釋了組織類型,產生了超過140萬個部分重疊的小方格,每個小方格是128×128像素(64×64μm),包含4096μm2的組織(圖4a)。在ImageNet(圖4b)上對病理標記為脂肪、間質、壞死和腫瘤(圖4c)的組織類型進行分類,準確率為0.88(范圍0.77–0.95)。結果表明,該模型正確地識別了間質注釋中的小脂肪區域和腫瘤內的壞死區域,并且通過跨褶皺聚集的交叉,也驗證了矩陣總體上表現出良好的性能(圖4d)。圖4.弱監督的深度學習可以準確地推斷出H&E上的HGSOC組織類型


作者為了驗證組織病理學分類模型的有效性,他們將組織分類模型應用于治療前標本中病變的243個訓練后的H&EWSIs(圖1c),并且將這些推斷出的組織類型圖與檢測到的細胞核結合起來,產生了標記的細胞核(圖5a)。作者根據算法對Cox模型進行迭代擬合和修剪,得到了一個具有兩個特征的多變量模型:平均腫瘤核面積和基質的長軸長度(圖5b)。該模型對訓練集和測試集進行了分層,一致性指數分別為0.56(95%CI 0.559–0.564)和0.54(95%CI 0.527–0.560)(圖5c)?;谕茢嗟娘L險評分建立的高風險組和低風險組在訓練集中分離良好,中位生存期分別為34個月和49個月(圖5d;P<0.01)。在測試組中,風險組傾向于不同的分離,中位生存期分別為37個月和50個月(圖5e;P=0.076)。為了探究組織病理學特征的原因,作者調查了平均腫瘤核面積;下圖展示了低(圖5f)和高(圖5g)的值,它們分別與更好和較差的預后相關。圖5.可解釋的組織病理學特征按OS對HGSOC患者進行分層


為了通過多種模式的數據集成預測患者的預后效果,作者實施了一種晚期融合的方法,將組織病理學、放射學、基因組學和臨床數據整合到多模態模型中(圖1e)。具體來說,作者使用使用各自的模式訓練的Cox模型來預測每個患者的對數部分風險,然后訓練一個最終的Cox模型來整合它們。在測試集中,結合兩種成像模式的模型(放射學-組織病理學(RH)模型)顯著優于基于HRD狀態的模型、臨床模型和個體成像模型,檢驗一致性指數為0.62(95%CI 0.604–0.638)(圖6a)。采用基因組學、放射學和組織病理學(GRH)模式的模型進行了比較,檢驗一致性指數為0.61(95%CI 0.594–0.625)。加入HRD狀態后,組織病理學亞模型評分仍具有顯著性(圖6b)。由GRH模型建立的高危組和低危組在訓練集中通過log-rank檢驗有顯著性差異(中位生存期分別為34個月和50個月;P=0.026;圖6c)。在測試集中,GRH風險組也顯示出顯著差異,高風險組中位生存期為30個月,低風險組中位生存期為50個月(P=0.023;圖6d)。在36個月時,低危組和高風險組分別有68%和34%存活。個體影像學方式的指數相似,但確定了不同的預后良好的患者亞組(圖6e)。由測試集中的模型確定的相同的兩個風險組也顯示出顯著差異的無進展生存期(PFS)(P=0.040;圖6g)。圖6.多模態整合改善了分層,并識別了臨床顯著的亞組

教授介紹:

Sohrab Shah

Sohrab Shah博士于2008年獲得UBC計算機科學博士學位,并于2010年被任命為BC癌癥機構和不列顛哥倫比亞大學的首席研究員。他于2018年4月被任命為MSK的首任計算腫瘤學服務主任,并且是Nicholls-Biondi主席的現任主席。他曾擔任加拿大計算癌癥基因組學研究主席,并獲得了邁克爾史密斯健康研究基金會職業研究員獎和特里??怂寡芯克卵芯繂T獎。

他的研究重點是通過涉及基因組學和計算建模的綜合方法來了解腫瘤如何隨著時間的推移而進化。Shah博士開創了計算方法和軟件,用于推斷癌癥基因組中的突變以及破譯癌癥進化的模式,這些模式已在國際上廣泛傳播。

參考文獻:

Boehm, K.M., Aherne, E.A., Ellenson, L. et al. Multimodal data integration using machine learning improves risk stratification of high-grade serous ovarian cancer. Nat Cancer 3, 723–733 (2022).

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容