文獻主要內容
細胞游離DNA (cfDNA)分析有望早期發現肺癌,并使患者獲得更高的生存率。然而,以往基于cfDNA的研究的檢測靈敏度仍然較低,不足以滿足臨床應用,特別是對早期腫瘤。
這項研究包括350名非癌癥患者和432名癌癥患者。參與者的血漿cfDNA樣本通過全基因組測序進行分析。在訓練隊列中比較多個cfDNA特征和機器學習模型,以獲得最優模型。在三個驗證隊列中評估模型的性能。
作者利用cfDNA片段組學特征建立了堆疊集成模型(a stacked ensemble model),對早期肺癌的檢測具有優越的敏感性,可以促進早期診斷,使更多的患者受益
基本假設
在細胞凋亡和壞死過程中,DNA片段被釋放到循環中形成cfDNA。它們攜帶來自起源細胞和組織的遺傳和表觀遺傳信息。具體來說,cfDNA的一部分,即循環腫瘤DNA (ctDNA),代表腫瘤細胞脫落的DNA。可以通過檢測腫瘤體細胞突變來區分ctDNA和非腫瘤cfDNA(10),但基于ctDNA突變呼叫的策略在早期肺癌中的靈敏度低至40%。
cfDNA切割位點基序的特征代表了腫瘤學液體活檢的另一類生物標志物。
cfDNA fragmentomic features
文章中提到的Multidimensional Cell-Free DNA Fragmentomic包括一下幾個特征,其中有四個是此文新定義的:
以下兩種特征主要是從 the cfDNA fragmentation size (DELFI) approach的定義擴展而來:
- The fragmentation size coverage (FSC)
- fragmentation size distribution (FSD)
6bp EDM主要從 the 4bp end motif (EDM4bp) feature特征擴展而來,增加了序列的多樣性,從245個序列增加到4096種。
- The 6bp end motif (EDM)
- The 6bp breakpoint motif (BPM)
- The copy number variation (CNV): ichorCNA R包分析
模型構建
主要使用的h2o R包,使用的機器學習模型有以下幾種:
- Generalized Linear Model (GLM)
- Gradient Boosting Model (GBM)
- XGBoost (XGB)
- Random Forest (RF)
- Deep Learning (DL)
文獻的研究思路
數據如下
分析的樣本總共有541例,312例非小細胞肺癌,230例正常對照,分為了三個數據集:一個訓練集226例,兩個驗證集n1=128例,n2=188例,還有一個獨立驗證集n3=240例。
模型構建方法如下
主要結果
cfDNA片段組學特征評估與機器學習算法
本研究主要通過評估驗證隊列中cfDNA特征和機器學習算法組合的AUC值來進行模型選擇。
作者在所有基礎模型(GLM、GBM、深度學習、隨機森林和XGBoost)中測試了FSC、FSD、EDM、BPM和CNV的AUC特征,結果如下表格:
通過對不同基礎模型的比較發現,疊加模型的EDM、BPM、FSC、FSD和CNV特征的AUC值均高于單一算法模型。
因此,作者選擇了堆疊集成模型作為我們后續評價的預測模型。
這里看著比較突出的指標是BPM與CNV。
模型構建不止有模型選擇,還有閾值設置,本次閾值設置如下:
We chose the cancer score of 0.66 as the cutoff based on the 95.7% specificity in the validation I cohort。
不同測序深度模型性能評估
最后作者還測試了不同測序深度下模型的表現:
在將WGS的覆蓋率降低到4x,3x,2x,1x和0.5x后,我們發現它們的AUC值在驗證I(>0.966)和II(>0.971)數據集中仍然很高。
我就不太明白:為啥都低到0.5x了,性能還這么好?
此外,這篇文獻的作者單位還挺有意思,感興趣可以看一看~
文獻信息:
Am J Respir Crit Care Med. 2023 May 1;207(9):1203-1213. doi: 10.1164/rccm.202109-2019OC
Multidimensional Cell-Free DNA Fragmentomic Assay for Detection of Early-Stage Lung Cancer