隔離的第三天,一個人的日子總是很難熬,沒辦法,孤獨總是常伴我身,今天我們分享的文獻在Atlas of clinically distinct cell states and ecosystems across human solid tumors, 2021年10月發表于cell,其中文章中開發了一種表征細胞狀態和生態型的分析方法,EcoTyper ,我們就來一探究竟
核心:無論是正常組織還是腫瘤發生,絕不是單一細胞類型起作用,而是幾種細胞類型組成多細胞communities,組成了最小的功能單元,個體差異,預后的不同,皆是因為這個communities的不同,或許,借此,單細胞空間可以運用到臨床方向。
In brief
EcoTyper 是一種機器學習框架,用于從基因表達數據中識別和表征細胞狀態和生態系統,它可以深入了解人類癌癥的細胞landscope和群落結構,這是癌癥相關死亡率的主要原因。
Highlights
EcoTyper enables large-scale profiling of cell states and multicellular ecosystems
Applicable to bulk, single-cell, and spatially resolved gene expression data(bulk、單細胞、空間數據全部可以用)
A reference atlas of 69 cell states and 10 ecosystems across 16 types of carcinoma
Carcinoma ecosystems have distinct biology, clinical outcomes, and spatial topology.
SUMMARY
確定細胞如何隨其局部信號環境而變化并組織成不同的細胞群對于理解發育、衰老和癌癥等多樣化過程至關重要。在這里,開發了 EcoTyper,這是一種機器學習框架,用于從bulk、單細胞和空間分辨的基因表達數據中大規模識別和驗證細胞狀態和多細胞群落。當應用于 16 種人類癌癥的 12 種主要細胞譜系時,EcoTyper 確定了 69 種轉錄定義的細胞狀態。大多數狀態是腫瘤組織特有的,在各種腫瘤類型中普遍存在,并且具有顯著的預后意義。通過分析細胞狀態共現模式,發現了十個臨床上不同的多細胞群落,具有出乎意料的強保護性,其中三個具有與不良生存相關的骨髓和基質成分,一個富含正常組織,兩個與早期癌癥發展有關。這項研究闡明了人類癌癥中細胞組織的基本單位,并為大規模分析任何組織中的細胞生態系統提供了框架。
INTRODUCTION
在癌癥中,相互作用的細胞類型的復雜群落形成了影響腫瘤發生的強大信號網絡(這個其實很多文章多次暗示過,細胞是形成社區來發揮作用)。操縱這些網絡的有針對性的策略正在改變癌癥治療,例如免疫檢查點抑制劑 (ICI) 在多種晚期實體癌中的成功。然而,對當前 ICI 的反應率是異質的,大多數實體瘤患者未能獲得長期的臨床益處。全面了解腫瘤相關細胞狀態、它們的相互作用模式以及它們對臨床結果的影響可以為疾病管理和治療干預提供新的機會。
以前的研究揭示了人類腫瘤的廣泛表型分類,從 T 細胞發炎(“hot”)到 T 細胞耗盡(“cold”)的腫瘤。這些分類可以告知疾病特征,包括反應ICI,但過度簡化了腫瘤微環境 (TME) 的細胞類型和細胞狀態。近年來,單細胞基因組學、空間轉錄組學和多重成像已成為直接從原發組織標本中獲得高分辨率腫瘤細胞生態系統圖像的強大技術。然而,實際考慮在很大程度上將這些測定限制在單一腫瘤類型、中等大小的樣本組或少量表型標志物上。
在這里,開發了 EcoTyper,這是一種機器學習框架,用于從大塊組織標本中大規模描繪細胞狀態和多細胞群落。我們的方法將統計學習技術與基因表達反卷積的最新進展相結合,從bulk、單細胞和空間分辨的基因表達數據中闡明多細胞生態系統。為了證明該框架的實用性,構建了來自 16 種人類癌癥的轉錄不同細胞狀態的全球圖譜。然后,我們定義了近 6,000 個腫瘤的細胞狀態共現模式,確定了 10 個具有廣泛代表性的多細胞群落。我們在單細胞水平上描述了我們的發現;在獨立的大塊組織樣本中驗證它們;并研究了它們與基因組特征、總生存期和 ICI 反應的關聯。最后,我們query了多細胞群落的空間組織,包括兩個具有促炎特性的群落。這項工作揭示了人類癌癥中細胞組織的基本單位,對新的診斷和個性化治療有影響。
RESULTS
The EcoTyper framework
將 EcoTyper 設計為一個廣泛適用的框架,用于從原代組織標本中高通量識別細胞狀態和多細胞群落。它包括三個關鍵步驟:從大塊組織轉錄組中數字純化細胞類型特異性基因表達譜,識別和定量轉錄定義的細胞狀態,以及將細胞狀態共同分配到多細胞communities中。
EcoTyper 首先應用 CIBERSORTx(一種最近描述的“數字細胞術”方法)來確定大塊組織轉錄組中單個細胞類型的豐度和基因表達譜(這是bulk解卷積的方法)。通過估算相關組織樣本集合中主要細胞類型的組成,CIBERSORTx 可以在數學上純化多種感興趣細胞類型的基因表達譜,而無需單細胞測序或物理細胞分離。值得注意的是,如果可以從其他來源(例如,單細胞或bulk-sorted的轉錄組)獲得特定于細胞類型的表達譜,則可以省略此步驟。其次,EcoTyper 采用統計學習算法,包括無監督和有監督的非負矩陣分解 (NMF) 的變體,來識別特定細胞類型的轉錄程序(“細胞狀態”),量化它們在每個樣本中的相對豐度,以及在外部表達式數據集中恢復它們(NMF也是分析的一個重點)。作為該工作流程的一部分,EcoTyper 實施了一種分析策略,即自適應誤報指數 (AFI),以在沒有先驗知識的情況下消除虛假狀態,同時最大限度地提高靈敏度。第三,EcoTyper 確定了形成多細胞communities的細胞狀態之間的共關聯模式。在這項工作中,多細胞communities被廣泛定義為跨獨立組織樣本共同出現的細胞狀態的集合,與空間鄰域無關。這種狀態可能參與多種交流模式,包括依賴接觸的相互作用和通過可擴散分泌分子介導的間接相互作用。然后,EcoTyper 可以跨數據集和平臺查詢細胞狀態和communities,從而對組織成分進行大規模評估。EcoTyper 的應用包括從新鮮、冷凍或固定的生物樣本中進行表型分析和生物標志物發現;通過整合已知的配體-受體對來研究細胞間信號網絡;和探索空間轉錄組學數據中的多細胞communities。
Atlas of transcriptionally defined cell states in 16 carcinomas
為了展示 EcoTyper 的功能,我們使用它來深入了解人類癌癥、全球癌癥死亡的主要原因以及可公開獲得大量基因組和臨床數據的一類惡性腫瘤。由于癌起源于上皮細胞,我們首先選擇了 12 種細胞類型,它們共同跨越人類上皮腫瘤中發現的大多數免疫和結構細胞:B 細胞、漿細胞、CD8 T 細胞、CD4 T 細胞、自然殺傷 (NK) 細胞、單核細胞/巨噬細胞、樹突狀細胞、肥大細胞、中性粒細胞、成纖維細胞、內皮細胞和上皮細胞。然后,組裝了一組細胞類型特異性基因表達特征,以使用 CIBERSORTx 區分每種細胞類型。為此,利用了之前發表的基因表達特征,每個都有廣泛的驗證數據支持其對實體瘤(包括癌)去卷積的分析性能。
接下來,探討了關鍵參數對 EcoTyper 反卷積的影響,包括細胞狀態豐度和細胞狀態分數的共線性。我們將 EcoTyper 應用于 500 個模擬腫瘤數據,這些腫瘤由來自非小細胞肺癌 (NSCLC) 個體的單細胞 RNA 測序 (scRNA-seq) 數據的混合物構成。EcoTyper 在一系列輸入分數(平均值為 0.5%–10%)的 26 個已知細胞狀態上顯示出強大的反卷積性能,包括細胞狀態識別(靈敏度 = 0.92,陽性預測值 = 0.86)和枚舉(中位數 Pearson r =已知比例和預測比例之間的 0.93)。此外,它實現了 ~0.5% 平均分數豐度的檢測極限,同時還展示了解析具有相關豐度模式的狀態的能力。
接下來,編制了一個發現隊列,該隊列由 16 種類型的人類癌癥組成,跨越 5,946 個腫瘤和 529 個相鄰的正常轉錄組,由癌癥基因組圖譜 (TCGA) 分析。選擇這些數據集是為了最大限度地提高樣本處理和處理的一致性、針對正交測量的估算細胞分數的準確性、管家基因表達水平的一致性,以及每個生物樣本的基因組數據和臨床隨訪的可用性。應用于這些數據,這些數據經過統一處理和標準化,EcoTyper 生成了一個包含 77,700 個數字純化表達譜的矩陣,每個評估的細胞類型和患者樣本(即 12 種細胞類型 3 6,475 個樣本)。
該表達矩陣的大小和范圍為識別和驗證癌癥之間共享的腫瘤相關細胞狀態提供了機會。首先,我們通過與來自 scRNA-seq 數據的參考圖譜進行比較,確認所有圖譜都顯示出細胞類型特異性的有力證據。接下來,我們應用 EcoTyper 將每個數字純化樣本建模為離散轉錄程序的線性組合。通過這種方式,純化的樣品被視為bulk-sorted populations,允許每個細胞類型的多個轉錄狀態共存每個樣品。
在最初的質量控制過濾后,EcoTyper 產生了 71 個離散的細胞狀態,每種細胞類型有 3 到 9 個狀態。大多數狀態在癌癥中普遍存在,并且在惡性組織中顯著富集,突出了獨立于腫瘤部位的關鍵共性。然而,許多狀態的組織學或臨床分布也各不相同。例如,多個轉錄程序將腫瘤與鄰近的正常組織或腺癌與鱗狀細胞癌區分開來。我們還觀察到細胞譜系和腫瘤類型的根本差異:上皮狀態對特定腫瘤類型表現出最強的特異性,其次是成纖維細胞、內皮細胞、骨髓細胞和淋巴細胞。
EcoTyper 實現了一個用于參考引導注釋的監督框架,其中在一個數據集中學習的細胞狀態可以在另一個數據集中進行識別和統計評估。為了評估 EcoTyper 定義的 71 種細胞狀態的真實性,我們query了 200,000 個單細胞轉錄組中每種狀態的存在情況,這些轉錄組涵蓋四種類型的人類癌癥:乳腺癌 (BRCA)、結直腸癌 (CRC)、頭頸部鱗狀細胞癌癌(HNSCC)和非小細胞肺癌??傊?,94% 的細胞狀態(71 個中的 67 個)在 scRNA-seq 數據中使用參考引導注釋和排列測試可顯著恢復。無論平臺、細胞類型或數據集如何,回收率都保持很高,這突顯了我們結果的穩健性。此外,我們在所有 7 個 scRNA-seq 腫瘤圖譜中觀察到顯著可重復的標記基因表達,留一法交叉驗證率為 90%?;谶@些評估,選擇了 71 個狀態中的 69 個進行進一步分析,省略了映射到 scRNA-seq 數據中潛在雙細胞的 2 個(內皮細胞狀態 3,成纖維細胞狀態 7)。
作為另一種驗證方法,還測試了是否在單細胞水平上概括了富含特定生物分組(例如正常組織)的狀態。事實上,在將單細胞轉錄組映射到 EcoTyper 狀態后,觀察到在鄰近正常組織、腺癌或鱗狀細胞癌中富集的狀態具有顯著的一致性。此外,與其他用于監督 scRNAseq 分類的參考引導注釋工具相比,EcoTyper 表現出卓越的性能。
接下來,通過與已知的轉錄程序、顯著表達的標記基因和之前的 scRNA-seq 研究定義的狀態進行比較來注釋每個狀態。大約三分之二的 EcoTyper 狀態可歸因于先前文獻中建立的基因或表型。例如,在沒有先驗知識的情況下,EcoTyper 鑒定了與腫瘤新血管形成有關的 ANGPTL2+/NID2+ 尖端樣內皮細胞;先前在 HNSCC 中描述的兩種成纖維細胞狀態;具有部分 EMT 特征的上皮細胞亞群(狀態 3);和與前效應、衰竭和靜息表型相關的典型 T 細胞亞群(分別為 CCR7+、LAG3+、KLF2+)。 EcoTyper 還揭示了對癌癥可塑性知之甚少的細胞類型的見解。例如,在癌癥免疫治療中具有新興作用的單核細胞/巨噬細胞譜系細胞中,EcoTyper 重建了九種具有廣泛代表性的體內表型,包括與促炎單核細胞 (CCR2+)、經典 M0 巨噬細胞 (FABP4+) 和M1 巨噬細胞 (CXCL9+)。還可以檢測到四種候選的 M2 樣巨噬細胞亞型(狀態 4-7),包括表達已知 M2 標記基因的狀態,例如 CD209 和 CD163(狀態 4)、S1PR1(狀態 5)和 CHI3L2(狀態 7)。
重要的是,近三分之一的 EcoTyper 狀態似乎是新的,或者以前沒有通過人類癌癥的 scRNA-seq 調查發現。例如,在 M2 樣巨噬細胞中,確定了與foamy巨噬細胞顯著相似的 AEBP1+ 群體(狀態 6),foamy巨噬細胞是一種經常與動脈粥樣硬化斑塊相關的富含脂質的表型,但其在癌癥中的相關性尚不清楚。為了證實這種狀態,我們對從福爾馬林固定石蠟包埋的人體內分離的基質細胞進行了bulk RNA 序列分析?;?H&E 染色的具有高和低foamy巨噬細胞含量的 CRC 腫瘤活檢。事實上,在 EcoTyper 鑒定的九個單核細胞/巨噬細胞狀態中,狀態 6 獨特地富含富含foamy巨噬細胞的基質,支持分析的結果。
總的來說,這些分析證明了 EcoTyper 的性能,并強調了其在當前超出其他技術實際限制的規模上定義細胞類型特異性轉錄程序的價值。補充提供了所有已識別狀態的詳細描述,包括轉錄因子、候選表面標記和 scRNA-seq 恢復統計。
Global view of cell-state prognostic associations
我們和其他人之前已經表明,來自外部來源的細胞類型特異性參考資料,包括bulk-sorted populations和 scRNA-seq 數據,可以預測癌癥臨床結果。然而,人類癌癥中環境依賴性細胞狀態的預后影響在很大程度上是未知的。因此,我們利用 EcoTyper 的獨特輸出來繪制 15,008 個腫瘤中 69 個細胞狀態的預后圖。
在我們的發現隊列調查的 16 種上皮癌類型中,大多數細胞狀態(69 種中的 39 種)與總生存期顯著相關,49% (n = 34) 在包含階段、年齡和性別的多變量分析中具有顯著性。全球生存協會將幾乎所有評估的細胞類型分為有利和不利狀態,突出它們的生物學和臨床異質性。例如,如先前研究中發現的,注釋為 M1(狀態 3)和 M2(狀態 4-7)的巨噬細胞亞群分別與更長和更短的存活時間相關。令人驚訝的是,在 M2 樣狀態中,AEBP1+ foamy巨噬細胞是不良生存的前五名決定因素之一,這表明foamy細胞作為癌癥的免疫治療靶點可能具有廣泛的相關性。其他與不良風險相關的顯著狀態包括 CA9+ 成纖維細胞(狀態 8)和 POSTN+ 成纖維細胞(狀態 3),這兩種細胞都與腫瘤侵襲性有關,以及促血管生成尖端樣內皮細胞(狀態 2)。特定的白細胞群體在癌癥中占主導地位,主要狀態包括 CCR7+ 幼稚/中央記憶 CD4+ T 細胞、CD247+ NK 細胞、CD27+ 漿細胞和 XCR1+ cDC1 樣樹突狀細胞,它們與 CD8+ T 細胞啟動有關。
為了確定這些結果的普遍性,應用 EcoTyper 對通過微陣列分析的 9,062 個上皮腫瘤轉錄組的獨立隊列中的所有 69 種細胞狀態進行定量(PRECOG),可獲得總生存期數據。首先,我們確認 EcoTyper 對bulk RNA-seq 和微陣列之間的平臺特定變化具有魯棒性。接下來,計算了 PRECOG 數據庫中特定狀態的生存關聯,通過加權 Z 分數來衡量。值得注意的是,TCGA 和 PRECOG 之間的生存關聯高度一致(Pearson r = 0.73,p = 1.2 * 10-12),證實了我們的發現并強調了 EcoTyper 對新數據集的可擴展性。我們還觀察到個體腫瘤類型的高度一致性,例如結腸癌、卵巢癌和胃癌,其中 M1 和 M2 foamy樣巨噬細胞分別預測更長和更短的存活時間。
Large-scale reconstruction of multicellular communities in vivo
腫瘤是由空間和時間相關的細胞狀態組成的復雜生態系統。為了確定 EcoTyper 是否可以重建多細胞生態系統,我們設計了一個數據驅動的基于共現和相互避免的模式對細胞狀態進行聚類的方法。通過將這種方法應用于發現隊列中的腫瘤樣本(69 個states,5946 個腫瘤),我們確定了 10 個具有顯著凝聚力的細胞群落,我們將其稱為“癌生態型”(CEs)。CE 的范圍從每個社區 3 到 9 個不同的細胞狀態,獨立于聚類方法而被穩健地恢復,在人類癌癥中普遍存在,并且與 TCGA 中最近描述的免疫亞型高度不同??梢赃B續評估。雖然幾乎每個腫瘤樣本都有一個占主導地位的 CE,但大多數腫瘤由多個 CE 組成,突出了腫瘤組織組成的模塊化。
為了驗證這些結果,我們進行了三個技術實驗。首先,我們測試了 CE 是否可跨平臺和獨立數據集重現。事實上,在通過 RNA-seq 和微陣列分析的 395 個人類癌癥樣本中,估計的 CE 水平在平臺之間顯著相關。此外,通過使用 UMAP 對細胞狀態豐度分布進行降維,我們在超過 6,000 個保留的上皮腫瘤中觀察到幾乎相同的群落結構。其次,我們測試了 CE 是否富含具有相互作用潛力的細胞狀態,無論是在生態型內部還是跨生態型。與背景預期相比,60% 的 CE 在配體-受體對中顯著富集,多個 CE 對也顯示出生態型間相互作用的證據。
鑒于這些結果,我們接下來query是否可以在單細胞數據中檢測到十個 CE。使用上述 scRNA-seq ,其中包括 ~200,000 個單細胞轉錄組,包括 76 個腫瘤和 21 個來自四種癌的相鄰正常標本,我們將單個細胞分配到 EcoTyper 狀態。然后,確定了每個腫瘤/正常樣本中每個狀態的豐度分數,隨后將細胞狀態分組到由 EcoTyper 定義的相同 CE 類別中。最后,確定了分配給同一 CE 的狀態是否比隨機機會預期的更緊密。總之,80% 的 CE 在 scRNA-seq 數據中可顯著檢測到,p < 0.05。此外,在 p < 0.06 時可檢測到 90%。鑒于 scRNA-seq 數據中可能掩蓋 CE 檢測的潛在混雜因素,包括適度的樣本量、每個樣本的低細胞數、基因表達的稀疏性和解離引起的扭曲,這一結果令人震驚。作為一種替代方法,我們確定了通過隨機機會獲得十個具有同樣強聯合關聯的 CE 的聯合概率。相對于背景預期,通過隨機機會獲得原始結果的概率小于 1,000,000 分之一 (p < 10-6)。
總之,這些數據驗證了我們的方法,在bulk和單細胞表達數據中識別出不同的多細胞群落,并將 CE 指定為人類癌癥細胞組織的基本單位。(非常重要)
6,000 個正常和腫瘤組織標本的癌生態型特征
在確定了癌癥中的十個主要多細胞生態系統后,接下來探索了它們的細胞、基因組和臨床特征。在整個發現隊列中,8 個 CE 在單變量模型中具有顯著的預后意義,5 個在對階段、年齡和性別進行多變量調整后仍然顯著。 CE1 和 CE2 高的腫瘤缺乏淋巴細胞,與較高的死亡風險密切相關,并且分別通過 POSTN+ 成纖維細胞和基底樣上皮細胞水平升高來廣泛區分。 CE3 高的腫瘤,預示著較差的生存結果,富含骨髓,微衛星不穩定性 (MSI) 高,并與 COSMIC 突變過程相關 17,這是在包括食管癌和胃癌在內的多種腫瘤類型中發現的特征,至少與部分原因是胃反流。 CE4 高腫瘤與肌肉生成和 60 歲以上的男性相關(部分原因是其在 HNSCC 和前列腺癌中的患病率較高),而 CE5 至 CE8 高腫瘤富含與吸煙相關的突變、正常組織、年齡相關的突變和適度有利的結果,分別。最后,CE9 和 CE10 高的腫瘤是促炎性的(即富含白細胞),與更長的總生存期密切相關,并且分別具有更高的免疫反應性,包括 IFN-g 信號傳導和更高的 B 細胞含量。值得注意的是,兩個 CE 在腫瘤和鄰近正常組織中以相似的頻率存在,但在健康組織中耗盡(CE4、CE10),反映了潛在的場效應。除 CE6 外,其他主要針對腫瘤組織。
總生存期和免疫治療反應的多細胞預測
由于每種癌癥生態型都整合了來自多種細胞狀態的貢獻,我們推斷 CE 分析可能具有改善臨床結果預測的潛力。為了測試這種可能性,我們首先將 CE 與用于預測發現隊列中的總體存活率的兩種分子亞型方案進行了比較:bulk NMF 聚類和由 TCGA 定義的六種泛癌免疫亞型的集合。選擇前者來評估 EcoTyper 反卷積的優點,而選擇后者作為 TME 分類的比較器。雖然bulk NMF 亞型主要局限于上皮細胞的異質性,但泛免疫亞型顯示出相對適度的預后關聯。相比之下,CE 在我們進行的所有比較分析中顯示出明顯的優勢,無論是在 CE 特異性生存關聯方面,還是在針對大量 NMF 和泛免疫亞型調整的多變量生存模型中。
接下來,我們query CE 是否可以預測免疫治療反應。為此,收集了 571 名晚期轉移性疾病患者在接受抗 PDL1(尿路上皮癌)、抗 PD1(黑色素瘤)或抗 CTLA4(黑色素瘤)單一療法的免疫檢查點阻斷之前的腫瘤表達數據。我們在該分析中包括了轉移性黑色素瘤,因為大多數非上皮細胞狀態可靠地概括為這種疾病。為了量化性能,我們評估了與總生存期的連續關聯以及與免疫治療反應的二元關聯。 CE9 以 IFN-g 信號為特征,在預測各種治療類型和結果測量的卓越結果方面優于其他 CE。我們還將 CE 分析與 112 個候選生物標志物進行了比較,包括由 EcoTyper 定量的 69 個細胞狀態、由 CIBERSORTx 枚舉的 25 個親本群體、腫瘤突變負荷 (TMB) 和 2 個已發表的 ICI 反應的bulk特征。令人驚訝的是,CE9 豐度超過了所有其他指標,包括那些受過訓練以預測 ICI 反應的指標。這些數據一起表明,即使沒有優化,多細胞群落也可以捕獲具有卓越預測價值的生物信號。
Spatiotemporal dynamics of proinflammatory communities
接下來試圖確定癌癥生態型是否顯示出不同的空間組織模式。為此,我們主要關注 CE9 和 CE10,這兩個促炎群落具有典型的 T 細胞狀態和良好的總體存活率,但基因組和細胞特征不同。 CE9-T 細胞狀態表達激活和免疫調節基因,包括衰竭標志物,這與 CE9 與 ICI 反應的關聯一致(例如,CD8 T 細胞 S3 中的 LAG3 和 CD4 T 細胞 S1 中的 CTLA4)。相反,CE10-T 細胞表達幼稚和中央記憶細胞的標志物(例如,CCR7)。盡管這種差異在腫瘤相關 T 細胞中得到了很好的證明,但它們的精確細胞群落以前尚未建立。使用 EcoTyper,我們發現 CE9-T 細胞與六種細胞狀態強烈共存,包括類似于 M1 巨噬細胞、成熟的免疫原性樹突狀細胞和活化的 B 細胞的狀態。相反,CE10-T 細胞與五種細胞狀態共存,包括與促炎單核細胞、cDC1 樹突狀細胞和幼稚/靜息 B 細胞一致的細胞狀態。這些結果通過參考指導注釋在七個 scRNA-seq 數據集中得到證實,加強了認為特定表型優先在腫瘤微環境中作為多細胞組裝同時出現。
為了檢查 CE 特異性表型是否在空間上不同,我們首先對分別標記 CE9 和 CE10-T 細胞的 GZMB 和 GZMK 進行了多色免疫熒光 (IF) 染色。在癌癥中,已觀察到 GZMB 和 GZMK 分別區分激活的效應記憶 T 細胞和過渡效應記憶 T 細胞。我們將 EcoTyper 應用于 NSCLC 患者的 23 個大塊腫瘤轉錄組,并選擇了四個具有不同 CE9 和 CE10 組成的樣本。這些標本的多重染色驗證了 EcoTyper 的預測。此外,雖然 GZMB+ T 細胞定位于腫瘤核心,這與慢性抗原刺激和 T 細胞耗竭之間的聯系一致,但 GZMK+ T 細胞在很大程度上被排除在外,而是定位于外周。
為了將我們的分析擴展到 T 細胞之外,我們進一步將 IF 成像應用于 APOE+/CD68+ 和 CCR2+/CD68+ 細胞,它們分別標記巨噬細胞/單核細胞譜系中的 CE9 和 CE10 富集狀態。使用來自上述分析的腫瘤標本,我們證實了由 IF 確定的相對細胞狀態豐度與由 EcoTyper 確定的那些一致。正如對 T 細胞所觀察到的,APOE+/CD68+ 細胞定位于腫瘤核心,而 CCR2+/CD68+ 細胞定位于外周。無論我們分析的是單個細胞狀態還是整個細胞群落,這些發現都與通過原位空間條形碼微陣列數據 (10x Visium) 分析的人類乳腺癌樣本的 EcoTyper 去卷積一致。此外,生態型之間的空間差異在與腫瘤細胞的距離方面非常顯著,這一發現可擴展到黑色素瘤標本。
為了確定其他細胞類型和癌癥是否顯示出 CE 特異性共定位模式的證據,我們接下來探索了通過空間轉錄組學分析的乳腺癌、結腸直腸癌、卵巢癌和黑色素瘤樣本中的細胞狀態共關聯。我們發現,無論發育譜系或癌癥類型如何,細胞狀態通常都以 CE 特異性方式共定位。通過目視檢查,這些圖案也很明顯。為了量化 CE 空間組織,我們應用了 Moran's I,一種空間自相關的統計量度。我們發現一些 CE 在空間上高度聚合(CE1、CE9、CE10),而另一些則更加分散(CE4、CE5、CE3)。然而,近三分之二的 CE 在空間上富含發現隊列中鑒定的 CE 特異性配體-受體對,這意味著大多數 CE,包括 CE9 和 CE10,都發生在具有增強相互作用潛力的空間不同的細胞鄰域中。
鑒于這些結果,再加上觀察到 CE10 通常比 CE9 更遠離腫瘤核心并且也存在于鄰近的正常組織中,我們假設 CE10 在早期腫瘤發展過程中先于 CE9。與此一致,我們發現在鱗狀細胞肺癌發生的早期階段,CE10 比 CE9 更普遍,而在惡性組織中,CE9 比 CE10 更普遍。此外,在從 33 名已知結果的受試者收集的肺鱗狀細胞癌癌前病變中,CE10 的較高相對水平與自發消退顯著相關,而 CE9 的較高相對水平預測進展為浸潤性癌(曲線下面積 = 0.82)。這些數據共同進一步驗證了我們的方法,將 CE 動力學與早期肺癌發展聯系起來,并提供了一個平臺來系統地詢問腫瘤細胞生態系統的診斷和治療潛力。
DISCUSSION
在這項研究中,描述了 EcoTyper,這是一個從基因表達數據中解碼細胞狀態和多細胞群落的集成系統。EcoTyper 在幾個重要方面與相關技術不同:首先,通過直接從完整組織活檢的 RNA 譜中估算細胞異質性,EcoTyper 避免了物理細胞分離引起的扭曲;不需要抗體或表型標記的預選;適用于新鮮、冷凍和固定標本。其次,與以前的反卷積方法不同,EcoTyper 可以準確地解析來自多種細胞類型 (>10) 的轉錄狀態,將它們組裝成多細胞群落,量化它們的相對組成,并在不同的表達數據集和平臺上查詢它們。盡管在這項工作中將 EcoTyper 應用于 16 種癌癥,但它可推廣到任何有合適表達數據的組織類型和疾病狀態。
雖然最近的研究揭示了使用多重成像對腫瘤細胞群落的重要見解,但這些研究集中在使用有限數量的預定義表型標志物的單一腫瘤類型上。通過部署 EcoTyper 來分析跨越近 6,000 個大塊腫瘤轉錄組的 16 種人類癌癥,我們以與標記無關的方式發現了 69 個轉錄定義的細胞狀態和 10 個以前未知的多細胞群落。為此,我們在數千個實體瘤的轉錄水平上對多細胞群落進行了表征,在 scRNA-seq 數據中證實了它們,并評估了它們與 ICI 反應和早期癌癥發展的關聯。這些數據和相關分析工具為開發依賴于腫瘤相關細胞狀態及其多細胞相互作用模式的診斷和治療策略提供了新的機會。
In summary, we demonstrate how cell states and multicellular communities can be profiled from bulk tissue transcriptomes, recovered in expression datasets independent of platform,related to immunotherapy response, and tracked across space and developmental time. Our approach is accurate, is complementary to existing single-cell assays, and has significant potential for generating experimentally testable hypotheses. Given its unique capabilities, we anticipate that EcoTyper will prove useful for reconstructing cellular community structure at high resolution and massive scale in health and disease.
Method
Overview of in silico purification
Signature matrix design
Cell state discovery
Cell state and ecotype recovery
我們利用 NMF 模型的內部結構設計了一種基于參考的策略來恢復新樣本中的細胞狀態。
Significance of cell state recovery
Limit of detection and collinearity analyses
scRNA-seq tumor atlases
Enrichment of cell states in known phenotypes
Comparison of scRNA-seq annotation methods
State-specific marker genes in scRNA-seq data
Ligand-receptor enrichment analysis
Analysis of spatial transcriptomics data
純方法論的文章,非常難,我們下一篇分享示例代碼
生活很好,有你更好