一、導讀
今天開始小編將更新seer數據庫挖掘相關文獻解讀,具體方式便是按照各個癌種連續更新,感興趣的小伙伴可以關注更新,一起學習。今天分享的文章題目為《Risk stratifification in patients with anaplastic thyroid carcinoma: role of age》。
最近看了不少seer數據庫相關的文獻,總結為4個字的套路:
提,根據指南或者臨床實踐提出需要解決的臨床問題;
收,在seer數據庫中收集數據;
建,預測模型建立,這是最常見的一種發文方式,當然部分文章也只是根據具體問題進行了一些統計分析,并未構建預測模型;
驗,驗證模型,有自己數據的可以用自己的數據作為外部驗證,這是最好的方式,但是真實世界的數據可是相當稀少而珍貴的,很少有文章將自己的數據作為驗證集的,至少在我常看的3-5分段的文獻中很少。
在這幾步當中,個人認為較難的便是”提“,因為這需要我們具備一定的專業背景,熟悉指南,了解厄待解決的臨床問題,當一個好的問題提出來之后,后面便是數據分析來解決問題。只要有數據,就會有結果(陽性或陰性,ps:陰性結果也是可以發表的,這就考驗寫作能力咯)。所以我在文獻解讀中的重點也將是“提”,碰到新穎的數據分析方法的話也會重點介紹。好了,咱們現在開始一起學習吧。
二、提:提出問題
1.年齡很重要!!!
甲狀腺癌是唯一一種認為年齡是甲狀腺癌特異性生存率(CSS)的重要預測因子的癌癥。第8屆美國癌癥聯合委員會(AJCC)分期系統將分化型甲狀腺癌(DTC)的年齡界限從45歲提高到55歲,以更準確地預測預后。
2.ATC是甲狀腺癌中惡魔
我們都知道分化型甲狀腺癌的預后較好,但是未分化甲狀腺癌(ATC)是人類最惡性的癌癥之一。發病率低,僅占所有甲狀腺癌的2%左右,但預后較差,中位生存期為3-5個月,1年生存率為20%。
甲狀腺未分化癌是甲狀腺癌中惡性程度最高的一種,發病率約占全部甲狀腺癌的10-15%,多見于年老體弱者,發病迅速, 早期可發生全身轉移,一般認為多發生自良性腫瘤或低惡性腫瘤。甲狀腺未分化癌(undifferentiated carcinoma)又稱間變性癌(anaplastic carcinoma)或肉瘤樣癌(sarcomatoidcarcinoma),較少見,多發生在40歲以上,女性較多見,生長快,早期即可發生浸潤和轉移,惡性程度高,預后差。
3.問題來了
既往研究表明,60-80歲的ATC患者的生存曲線急劇下降,但結果主要基于預先確定的年齡組(如60歲、65歲或70歲),意思就是沒有將年齡作為一個連續變量,去探究其cut value,并且最新指南對分化型的年齡做了改動,但是未分化型的相關內容還很模糊,那么年齡在未分化型甲狀腺癌的預后中究竟扮演什么樣的角色。
三、收:收集數據
作者構建了兩個隊列,第一個隊列納入排除標準相對寬松,旨在描述ATC的發病年齡分布,隨后在隊列1的基礎上進一步排除病例,用X-tiel軟件確定了兩個年齡的cut value,隨后在各個年齡中進一步探討了影響患者生存的因素,構建了多因素cox模型。
隊列1:用于描述ATC的年齡分布
僅限于2004年至2015年診斷的ATC患者(AJCC分期系統直到2004年才在SEER中使用);
排除無組織學陽性診斷確認、無積極隨訪、無生存月、僅報告尸檢來源/死亡證明的患者。
隊列2:確定每個年齡組中與CSS相關的最佳年齡截止值和CSS的預測因子;
排除了隊列1中數據缺失的患者,包括未知的種族、腫瘤大小、腫瘤擴展信息、治療和TNM分期;
排除不是首次惡性原發性腫瘤患者;
排除不是因ATC或其轉移以外的原因死亡的患者。
四、建:建立模型
第一部分:總體描述
首先描述了患者總體生存,臨床資料,臨床資料表太長就不放了,下圖就是患者的總體生存。
第二部分:確定年齡的cut value
第三部分:分層研究
作者隨后比較了三個年齡組的基線臨床資料,發現大部分臨床資料都存在差異,意思就是不能放到一起探究了,那么作者就在三個年齡組分別研究了哪些因素可以影響患者的生存,大于85歲組由于患者人數較少,不能再才分為訓練集和測試集,就直接作為一個整體去分析,而小于64歲和64-85歲這兩組又分別按照7:3隨機抽樣分為了訓練集和測試集,并比較了訓練集和測試集的臨床特征無差異,可以用于驗證。訓練集和測試集的臨床特征比較就不放,影響篇幅,意思就是沒差異,可以比較。
ps:再R語言中可以非常方便地繪制三線表和這種分組分層帶有統計檢驗的臨床資料表,網上也有一些教程,需要的小伙伴也可以留言,我可以去總結一下在R中快速繪制臨床資料表的方法。
第四部分:建立模型及驗證
在兩個年齡組中分別構建了多因素cox模型,并繪制了諾莫圖。組1的CSS訓練集和測試集的C-index值分別為0.735[95%CI,0.696–0.774]和0.733[95%CI,0.663–0.804],而組2的值分別為0.767[95%CI,0.730–0.804]和0.783[95%CI,0.718–0.848]。此外,校準曲線(補充圖)對6個月、1年和2年CSS的訓練和測試組顯示,所有曲線幾乎接近45°對角線,表明列線圖有適當的校準。因此,所提出的列線圖在兩個年齡組中表現良好。
雖然列線圖中包含的四個預測因素在兩個年齡組中是相同的,但各個因素的權重不同,這表明ATC患者應評估不同年齡組的死亡風險。(這里寫得就很厲害:意思就是兩個年齡組雖然經過多因素cox分析,最終納入了相同的四個臨床特征來預測患者的生存,但是呢,這兩個模型中每個因素的權重是不同的,我們是需要在不同的年齡組中分別去預測患者的生存,這就是點睛之筆,直接闡明了本研究的貢獻)
前面一直沒有提到大于85歲組的結果,因為在85歲組沒有發現有價值的預后因素,我們來看看作者是怎么討論的呢,主要是學習一下怎么分析陰性結果的原因。(我直接翻譯成中文,方便閱讀)
無論如何,根據我們的研究、ATA指南和以往的研究,聯合治療(如果有需要和適用)可能是ATC患者的最佳選擇,特別是對于85歲以下的患者。然而,對于年齡大于85歲的患者,本研究中沒有發現與CSS相關的預測因子,并且基于SEER數據庫的數據分析,該年齡組的患者沒有從任何針對ATC的治療中獲益。一些原因可以解釋這一結果:由于他們的健康狀況、社會經濟因素等,包括手術、化療和放療在內的干預措施可能不適用于85歲以上的患者。因此,該年齡組患者的最佳治療策略有待進一步研究。
五、結語
這篇文章到這里就結束了,下面談談感想吧。最近我都在學習seer數據庫的文獻,因為我想自己做一篇seer數據庫挖掘+真實世界數據驗證的文章,但是苦于還沒有idea,然后看到好多人在說seer數據庫挖掘的文章很難發了之類的,但是我看到今年seer相關的文章也不少,有的是依靠新的數據分析方法,比如機器學習,但是我認為一個好的臨床問題才是關鍵,正如這篇文章最后的結論,提示我們在不同年齡階段預測因子的權重是不同的,不能粗暴地使用一個預后模型去判斷患者的預后,這就很符合現在精準醫療的概念啊。