10X單細胞空間聯合分析之十一(CellTrek)

hello,大家好,又是周一,新一周的開始,第一天分享一個簡單的內容,就是一個新的單細胞空間分析的軟件,CellTrek,這個軟件最新的地方在于添加了細胞之間的共定位分析,文章在Spatial charting of single cell transcriptomes in tissues,我們還是先來看看文章,最后看看代碼,我也把之前的單細胞空間聯合分析的軟件分享列在下面,供大家參考。

MIA用于單細胞和空間的聯合分析

10X單細胞和空間聯合分析的方法---cell2location

10X空間轉錄組和10X單細胞數據聯合分析方法匯總

10X單細胞空間聯合分析之四----DSTG

10X單細胞空間聯合分析之三----Spotlight

10X單細胞空間聯合分析之五----spatialDWLS

10X單細胞空間聯合分析之六(依據每個spot的細胞數量進行單細胞空間聯合分析)----Tangram

10X單細胞-10X空間轉錄組聯合分析之七----CellDART

當然還有依據marker注釋空間轉錄組的方法,10X空間轉錄組數據分析之思路總結(針對腫瘤樣本)

10X單細胞-10X空間轉錄組聯合分析之八----STRIDE(三維重構)

10X空間轉錄組數據分析之空間注釋(解卷積,STdeconvolve)

10X單細胞空間聯合分析之十(RCTD)

好了,開始我們的分享

圖片.png

Abstract

單細胞 RNA 測序 (scRNA-seq) 方法可以分析單細胞的轉錄組,但不能保留空間信息。 相反,空間轉錄組學 (ST) 分析可以描繪組織切片中的空間區域,但沒有單細胞基因組分辨率。 在這里,作者開發了一種稱為 CellTrek 的計算方法,它結合了這兩個數據集來實現單細胞空間映射。 測試使用模擬研究和兩個原位數據集對 CellTrek 進行了基準測試。 然后,應用 CellTrek 從正常小鼠大腦和腎臟組織的現有數據集中重建細胞空間結構。 分析還對兩個導管原位癌 (DCIS) 組織進行了 scRNA-seq 和 ST 實驗,并應用 CellTrek 來識別僅限于不同導管的腫瘤亞克隆,以及與腫瘤區域相鄰的特定 T 細胞狀態。 數據表明,CellTrek 可以準確地繪制不同組織類型中的單個細胞,以解析它們的空間組織。

Introduction

單細胞 RNA 測序 (scRNA-seq) 方法極大地擴展了我們對不同細胞類型的基因表達程序及其在發育和疾病中的作用的理解。然而,scRNA-seq 在組織解離步驟中固有地丟失了細胞空間信息,這對于理解細胞微環境和細胞間相互作用至關重要。雖然空間測序方法,包括空間轉錄組學 (ST) 和 Slide-seq,可以在空間上描繪跨組織切片的基因表達,但它們僅限于測量具有細胞混合物的小區域,并且不能輕易提供單細胞信息。為了解決這個問題,已經設計了計算方法(例如,cell2locationRCTD)來將 ST spot解卷積為不同細胞類型的比例。然而,空間去卷積方法僅限于推斷每個spot的細胞類型比例,無法實現單細胞分辨率。此外,去卷積方法將細胞類型進一步解析為反映不同生物學功能的更細粒度的“細胞狀態”(表達程序)的能力有限。最后,大多數反卷積方法只能預測分類標簽,而不能以空間分辨率推斷連續的細胞信息(例如,譜系軌跡、基因特征、連續表型)

在這里,作者開發了 CellTrek,這是一種計算工具包,可以根據 scRNA-seq 和 ST 數據將單個細胞直接映射回組織切片中的空間坐標。 這種方法提供了一種不同于 ST 反卷積的新模式,能夠更靈活、更直接地研究具有空間地形的單細胞數據。 CellTrek 工具包還提供了兩個下游分析模塊,包括用于空間共定位分析的 SColoc 和用于空間共表達分析的 SCoexp。 使用模擬和原位數據集對 CellTrek 進行了基準測試。 然后,將 CellTrek 應用于來自正常小鼠大腦和腎臟組織的現有數據集以及從兩個人類導管原位癌 (DCIS) 樣本生成的數據,以研究單細胞空間分辨率下細胞類型/狀態的組織。

Results

Overview of CellTrek toolkit

CellTrek 首先將 ST 和 scRNA-seq 數據集成并共嵌入到共享特征空間中


圖片.png
  • Overview of the CellTrek workflow. CellTrek first co-embeds scRNA-seq and ST datasets into a shared latent space. Using the ST data, CellTrek trains a multivariate random forests (RF) model with spatial coordinates as the outcome and latent features as the predictors. A 2D spatial interpolation on the ST data is introduced to augment the ST spots. The trained RF model is then applied to the co-embedded data (ST interpolated) to derive an RF-distance matrix which will be converted into a sparse graph using mutual nearest neighbors (MNN). Based on the sparse graph, CellTrek transfers the coordinates to single cells from their neighboring ST spots.

CellTrek 使用 ST 數據訓練multivariate random forests (RF) model,以使用共享降維特征預測空間坐標。 引入了對 ST 數據的空間非線性插值以增加空間分辨率。 然后將訓練后的模型應用于共嵌入數據以導出 RF 距離矩陣,該矩陣測量 ST spot和由空間坐標監督的單個細胞之間的表達相似性。 基于 RF 距離矩陣,CellTrek 在閾值化后使用相互最近鄰 (MNN) 生成稀疏spot細胞圖。 最后,CellTrek 從相鄰spot傳輸細胞的空間坐標。 為了提高兼容性,CellTrek 可以接受從其他方法(例如 novoSpaRc)計算的任何細胞位置概率/距離矩陣作為細胞空間圖表的輸入。 此外,提供了一個圖形用戶界面 (GUI),用于對結果 CellTrek map進行交互式可視化。

為了概括不同細胞類型之間的空間關系,開發了一個下游計算模塊 SColoc,它將 CellTrek 結果匯總為圖形抽象


圖片.png
  • 注:The SColoc module. Based on the CellTrek result map, three different spatial dissimilarity methods, i.e., KL, DT, KD, can be applied to calculate a cell-type spatial dissimilarity matrix, and an MST is used to generate a tree structure. These steps are conducted repetitively on bootstrapped samples to calculate a consensus matrix on dissimilarity matrices or MSTs, which produces a final cell-type spatial graph representation

提供了三種方法,即 Kullback-Leibler 散度 (KL)、Delaunay 三角測量 (DT) 和 K-最近鄰距離 (KD),用于計算細胞類型之間的空間差異。 基于相異度矩陣,SColoc 可以構造一個最小生成樹 (MST),表示簡化的空間細胞鄰近度。 上述步驟將在引導樣本上迭代執行以生成共識矩陣(在差異或 MST 上)。 此后,圖形將通過具有可調邊緣閾值和顏色映射功能的 GUI 呈現。 此外,SColoc 提供了一個 Kdistance 度量,用于測量細胞到選定參考組的空間距離。

為了研究不同的表達程序是否分布在不同的地形區域,作者開發了 SCoexp,它利用 CellTrek 坐標來檢測目標細胞內的共表達基因模塊。


圖片.png
  • 注:The SCoexp module. For cells of interest, based on the CellTrek map, SCoexp first calculates a spatial kernel matrix using RBF based on their spatial distance. Next, based on the spatial kernel matrix and cell-gene expression matrix, SCoexp calculates the spatial weighted gene co-expression. Gene modules are then identified using CC or WGCNA. For the identified co-expression modules, module activity scores can be computed and mapped back to the CellTrek coordinates.

首先,SCoexp 根據它們的空間距離計算空間核權重矩陣。 使用這個權重矩陣,SCoexp 計算空間加權基因共表達矩陣。 此后,SCoexp 利用共識聚類 (CC) 或加權相關網絡分析 (WGCNA) 來識別基因模塊。 對于識別的模塊,我們可以計算模塊分數并investigate它們的空間組織。

Benchmarking and simulations

為了對 CellTrek 的性能進行基準測試,利用了三個空間數據集,1) 具有自定義空間模式的模擬 scRNA-seq 數據集


圖片.png
  • 注:(a) UMAP of a simulated scRNA-seq data with 5 cell groups. (b) Spatial organization of the simulated data as the ground truth
  1. 基于熒光原位雜交 (FISH) 的果蠅胚胎單細胞數據集


    圖片.png
  • 注:(d) UMAP of Drosophila embryo FISH-generated single cell data. (e) Spatial organization of Drosophila embryo cells as the ground truth.
    3)小鼠胚胎的seqFISH數據集
    圖片.png
  • 注:(g) UMAP of mouse embryo seqFISH data (Group1: Cardiomyocytes; Group2: Cranial mesoderm; Group3: Definitive endoderm; Group4:Dermomyotome; Group5: Endothelium; Group6: Erythroid; Group7: Forebrain midbrain hindbrain; Group8: Gut tube; Group9: Haematoendothelial progenitors; Group10: Intermediate mesoderm; Group11: Lateral plate mesoderm; Group12: Mixed mesenchymal mesoderm; Group13: Neural crest; Group14: Presomitic mesoderm; Group15: Spinal cord; Group16: Splanchnic mesoderm; Group17:Suface ectoderm). (h) Spatial organization of the mouse embryo cells as the ground truth.

生成了三個相應的 ST 數據集,每個spot聚合了五個空間最近的細胞


圖片.png
  • 注:(f) mouse embryo ST data generated based on panel (h). In (c), (f) and (i), each ST spot aggregates the 5 nearest cells to generate the ST data.

將 CellTrek 應用于 scRNA-seq 和 ST 數據以重建它們的空間細胞圖。 然后,將CellTrek 與另外兩種細胞制圖方法進行了比較:1) NVSP-CellTrek,它使用基于參考的 novoSpaRc(一種空間重建方法)來計算細胞空間概率矩陣,然后利用 CellTrek 生成空間圖,以及 2) Seurat coordinate transfer (SrtCT) which uses the data transfer approach to transfer ST coordinates to single cells。 CellTrek 和 NVSP-CellTrek 都重建了模擬數據的原始空間格局,而 SrtCT 只重建了細胞之間的粗略空間關系,不能準確地映射細胞


圖片.png

與 NVSP-CellTrek 相比,CellTrek 以更高的空間密度繪制了更多的細胞。 為了定量評估這些方法,我們使用 KL 散度將細胞繪圖結果的空間密度與不同細胞類型的原始空間分布進行了比較。 CellTrek 和 NVSPCellTrek 均以低 KL 散度實現了良好的性能,而 SrtCT 與參考分布的差異要大得多

圖片.png

在果蠅胚胎數據中,CellTrek 準確重建了原始空間布局,三種方法中 KLdivergences 最低


圖片.png

在 CellTrek 結果中進一步研究了幾種已知的果蠅胚胎發生基因,并發現了與先前研究一致的空間模式


圖片.png

在小鼠胚胎數據中,我們發現 CellTrek 和 NVSP-CellTrek 準確地重建了原始空間結構,而 CellTrek 在第 5、9 和 17 組中顯示出略高的 KL-divergences


圖片.png

為了研究 CellTrek 是否可以揭示小鼠胚胎發育的空間模式,我們選擇了一組腸管細胞,發現一些標記基因與之前的研究存在空間一致性


圖片.png

然后我們使用 Monocle 進行了軌跡分析,結果表明偽時間反映了腸管細胞的空間發育模式以及前后軸
圖片.png

接下來評估了 CellTrek 在三種不同模擬設置下對模擬數據的性能:1)read counts,2) 空間隨機性,以及 3) 組織密度。 我們使用 KL 散度和 Pearson 相關性在 CellTrek 地圖和參考之間的細胞空間坐標上評估 CellTrek 性能。 在三個模擬中(每個模擬有八個條件),與置換測試相比,CellTrek 實現了良好的空間重建性能,并顯示出更低的 KL 散度和更高的相關性。 然而,增加空間隨機性會影響 CellTrek 的性能并降低統計顯著性,同時減少read counts或spot/cell密度將導致稀疏的細胞圖。 總體而言,該數據表明 CellTrek 是一種在不同實驗條件下進行單細胞空間映射的穩健方法。

圖片.png

Topological organizations of mouse brain cells

將 CellTrek 應用于公共小鼠大腦 scRNA-seq (Smart-seq2)和 ST 數據集(Visium,10X Genomics)。 我們將 CellTrek 與 NVSP-CellTrek 和 SrtCT 方法進行了比較。 CellTrek 按照 L2/3 端腦內 (IT)、L4、L5 IT、L6 IT、L6 皮質丘腦 (CT) 和 L6b 的順序重建了層流興奮性神經元亞型的清晰層結構,與大腦皮層結構相匹配。 NVSP-CellTrek 顯示出類似的空間層趨勢,從而證明了 CellTrek 方法的靈活性和一致性。 然而,NVSP-CellTrek 在某些區域導致了稀疏的細胞映射。 SrtCT 未能準確地將細胞位置投影到組織學圖像上。 然后我們使用 Seurat 標簽轉移 (SrtLT) 來預測每種細胞類型的空間分布作為我們的參考。 細胞制圖結果與參考文獻之間的 KL 散度表明 CellTrek 成功地恢復了空間細胞結構,并且在三種方法中具有最低的 KL 散度


圖片.png
  • 注:CellTrek reconstructs spatial organization in a mouse brain tissue. a, Comparison of CellTrek, NVSP-CellTrek and SrtCT results for single cell spatial charting in a mouse brain tissue. b, KL-divergence of spatial cell charting methods for each cell type using SrtLT as a reference.

接下來,驗證 CellTrek 是否可以進一步揭示同一細胞類型內細胞狀態的拓撲模式。 例如,L5 IT 細胞包含五種表達狀態,并在 UMAP 上以 Hsd11b1-Endou、Whrn-Tox2、Batf3、Col6a1-Fezf2 和 Col27a1 的順序顯示出連續趨勢。 L5 IT CellTrek map發現了一個精煉的子層架構,這與之前的研究一致。 為了總結細胞空間共定位,我們使用基于 KL 的 MST 共識圖將 SColoc 應用于 CellTrek 結果。 谷氨酸能神經元細胞類型按層結構的順序構建了圖形的線性主干。 到 L2/3 IT 細胞的空間 K 距離在圖表的相同順序中顯示出顯著增加的趨勢(Spearman's rho = 0.91,P < 2.2e-16)


圖片.png
  • 注: c, UMAP (left) and CellTrek map (right) of scRNA-seq data of L5 IT cell states. d, Spatial colocalization graph of glutamatergic neurons using SColoc. e, CellTrek-based spatial K-distance of glutamatergic neurons to L2/3 IT cells. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box.

然后,使用 SCoexp 研究了基因如何在 L5 IT 細胞中空間共表達。 鑒定了兩個共表達模塊(K1、K2)并顯示出不同的生物學功能富集。 K1 模塊在細胞狀態 Hsd11b1-Endou、Whrn-Tox2 中高度活躍并在空間上位于外層,而 K2 模塊在 Col27a1、Col6a1-Fezf2 和 Batf3 中高度活躍,主要位于內層。 這些結果表明 SCoexp 能夠識別相同細胞類型內的細微轉錄差異并推斷它們的拓撲異質性。


圖片.png
  • 注: f, Spatial co-expression modules (K1 and K2) identified in L5 IT cells using SCoexp. g-h, UMAPs of L5 IT cells showing the K1 module activity scores (g) and the K2 module activity scores (h) and their corresponding CellTrek maps.
圖片.png
  • 注:(a-b) GO enrichment analyses (left) and module-correlated genes (right) for mouse brain L5 IT K1 and K2 modules, respectively

Spatial cell charting of the mouse hippocampus

還將 CellTrek 應用于來自小鼠海馬體的 Slide-seq v230 和 scRNA-seq 數據 。 Slide-seq 數據的無監督聚類確定了 12 個具有高度組織空間結構的聚類 (G01-G12)。 CellTrek 將單個細胞映射到它們的空間位置,這與 Slide-seq 集群一致。 值得注意的是,G06 與 Cornu Ammonis (CA) 區域匹配,而 CellTrek 揭示了 CA1、CA2 和 CA3 主細胞的順序映射,這些主細胞無法單獨通過 Slide-seq 聚類解決。 這些結果表明 CellTrek 可以廣泛應用于不同的空間基因組平臺,以實現更精細的空間細胞分辨率。

圖片.png

Spatial reconstruction of a mouse kidney tissue

將 CellTrek 應用于公共小鼠腎臟數據 32 并將其與 NVSP-CellTrek 和 SrtCT 進行比較。 CellTrek 使用位于不同組織學區域(例如,皮質、外髓質和內髓質)的不同細胞類型準確重建了細胞空間結構。與 CellTrek 相比,NVSP-CellTrek 顯示出相似的空間模式,而 SrtCT 無法重建小鼠腎細胞的準確空間組織。使用 SrtLT 作為參考,CellTrek 和 NVSP-CellTrek 都實現了整體低 KL 散度,NVSP-CellTrek 顯示出更高的 VSMC 和 RenaCorp 細胞的 KL 散度。 SrtCT 顯示與參考分布的最高 KL 散度。為了進一步研究空間細胞表達動態,我們分別推斷了 ProxTub 和 DistTub 細胞的軌跡,并基于 CellTrek 對它們的偽時間進行了空間映射。對于 ProxTub 細胞,我們觀察到從皮層外部到內部的連續空間軌跡。 ProxTub 細胞的這種連續解剖變化與之前的研究一致。同樣,DistTub 細胞也顯示出具有清晰空間模式的連續軌跡。總的來說,這些結果表明 CellTrek 可以解決組織中單細胞連續表達程序的拓撲排列。


圖片.png
  • 注:CellTrek reconstructs spatial organization in a mouse kidney tissue. a, Comparison of CellTrek, NVSP-CellTrek and SrtCT results for single cell spatial charting in a mouse kidney tissue. (DistTub: distal tubule cells, T: T cells, ProxTub: proximal tubule cells, VSMC: vascular smooth muscle cells, Inter: intercalated cells, Prin: principal cells, TLLH: the loop of Henle, Vasc: vascular cells, Macro: macrophages, RenaCorp: renal corpuscle cells) b, KL-divergence of spatial cell charting methods for each cell type using SrtLT as a reference. c, Trajectory analysis for proximal tubule cells (left) and spatial mapping of the pseudotime values in the tissue section (right). d, Trajectory analysis for distal tubule cells (left) and spatial mapping of the pseudotime values in the tissue section (right).

接下來使用 SColoc 總結了一個細胞空間圖。 ProxTub 細胞被確定為樞紐并連接到 RenaCorp、DistTub 和其他細胞類型。共識熱圖和層次聚類顯示出與圖抽象相似的模式。由于 scRNA-seq 數據是從小鼠腎臟的不同區域顯微解剖中收集的,我們詢問 CellTrek 是否可以在沒有先驗知識的情況下重述實驗區域信息。根據 CellTrek 結果,我們計算了 TLLH、DistTub 和 Prin 細胞到中心區域的一組細胞的 K 距離。觀察到一致的趨勢是 Kdistances 從皮質到外髓質,然后到內髓質,這表明 CellTrek 成功揭示了小鼠腎臟的帶狀結構。此外,在 DistTub 細胞中,我們使用 SCoexp 確定了兩個不同的空間共表達模塊(K1 和 K2)。 K1 模塊富含代謝途徑、腎系統發育,并與一些遠曲小管 (DCT) 基因高度相關。相比之下,K2 富含細胞基質途徑、嘌呤代謝途徑,并與遠端直管 (DST) 經典基因相關。這兩個模塊在 UMAP 和 CellTrek 地圖上顯示了不同的模式。 K1在皮質區高度活躍,而K2在髓質區活躍,這與DCT和DST的解剖定位一致

圖片.png
  • 注:e, Spatial colocalization graph of different renal cell types using SColoc. f, Spatial consensus matrix of different renal cell types. g, CellTrek-based spatial K-distance of TLLH, DistTub and Prin cells to the tissue center cells across experimental zonal dissections (left). Center cells as reference are shown on the right panel. *** indicates P < 0.001. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box. h, Spatial co-expression modules (K1 and K2) identified in distal tubule cells using SCoexp. i-j, UMAPs of distal tubule cells showing the K1 module activity scores (i) and the K2 module activity scores (j) and their corresponding CellTrek maps.
圖片.png

進一步query CellTrek 是否可以通過利用空間信息來提高我們對細胞間通訊的理解。 我們使用 CellChat 對 scRNA-seq 數據進行了細胞-細胞相互作用分析,并使用 SColoc 圖通過假設共定位的細胞將有更高的機會相互作用來過濾細胞-細胞對。 與原始 CellChat 結果相比,預測了所有細胞類型之間的許多非特異性相互作用,空間過濾提供了一組更簡潔、更具體的減少的相互作用。 重要的是,分析確定了之前報道過的幾種相互作用,包括 ProxTub 表達的 Vegfa 與其受體 Flt1 和 Kdr 相互作用,后者由 Vasc 表達

圖片.png

Spatial subclone heterogeneity in a DCIS breast cancer

將 3' scRNA-seq(10X 基因組學)和 ST(Visium,10X 基因組學)應用于 DCIS 樣本 (DCIS1),以分析 6,828 個單細胞和 1,567 個 ST spot。 對于 scRNA-seq 數據,聚類和差異表達 (DE) 分析確定了 5 種主要細胞類型,包括上皮細胞、內皮細胞、成纖維細胞、髓細胞和自然殺傷 (NK)/T 細胞


圖片.png

應用 CopyKAT 從 scRNA-seq 數據推斷拷貝數分布。在所有腫瘤細胞中觀察到一些克隆拷貝數改變 (CNA),包括染色體 3q (PIK3CA)、8q (MYC) 和 19p (STK11) 的增加以及染色體 8p (PPP2R2A)、10q (PTEN) 和 14q 的丟失。 AKT1)。 CNA 譜的 UMAP 和 dbscan 聚類確定了三個主要腫瘤亞克隆 (clone1-3) 具有一些不同的改變,包括克隆 2 和克隆 3 中的 17q (ERBB2) 增益和 11q (ATM) 丟失,克隆 2 中的 1q(MDM4 和 EPHX1)增益和克隆 3 中的 6q (FOXO3) 丟失。基于共有的 CNA 譜,我們構建了一個系統發育樹,顯示克隆 1 是較早的亞克隆,與主要譜系不同,其次是克隆 2 和克隆 3。值得注意的是,這三個亞克隆表現出轉錄異質性。 Hallmark 基因集富集分析確定了所有三個亞克隆的幾種常見途徑,包括 MYC 靶標、氧化磷酸化和 DNA 修復。我們還確定了亞克隆特異性特征,包括富含克隆 2 和克隆 3 的雌激素反應途徑,以及富含克隆 2 的干擾素 α/γ 反應、凝血和補體途徑。


圖片.png
  • 注:CellTrek identifies the spatial subclone heterogeneity in DCIS1. a, A heatmap of copy number (CN) profiles inferred by CopyKAT on the scRNA-seq data in DCIS1. The lower part represents a consensus CN profile of each cluster with some breast cancer-related genes annotated. b, CN-based UMAP of DCIS1. c,Phylogenetic tree based on the consensus CN profiles. d, Hallmark GSEA analysis of the expression data from three tumor subclones
圖片.png

為了了解三個腫瘤亞克隆的空間分布,我們將 CellTrek 應用于 scRNA-seq 和 ST 數據。大多數腫瘤細胞映射到 H&E 載玻片上的 DCIS 區域。此外,不同的腫瘤亞克隆映射到不同的導管區域,反映了廣泛的腫瘤內空間異質性。具體而言,clone2 主要位于中間 (M) 導管,而 clone3 主要位于右側 (R) 導管,而 clone1 分布在許多導管區域。 ST 腫瘤spot的無監督聚類確定了五個 ST cluster,它們顯示空間和基因表達與腫瘤 CellTrek 圖一致。基于每個導管的亞克隆組成,我們進行了聚類分析并計算了香農指數,產生了四個具有不同亞克隆組成和空間模式的主要導管簇。總體而言,來自組織右側部分的導管顯示出較低的克隆多樣性,而來自中間和左側區域的一些導管顯示出較高的克隆多樣性


圖片.png
  • 注:e, Spatial cell charting of three tumor subclones using CellTrek. f, Tumor subclonal compositions within different ducts. The diamond symbol in each bar represents the Shannon index which measures the diversity of tumor subclones. g, H&E image of the DCIS tissue section with Shannon diversity index for each duct.
圖片.png

使用 SCoexp 進一步研究了腫瘤細胞的空間共表達模式,并確定了三個基因模塊(K1、K2 和 K3)。 K1 模塊在 Clone1 中含量較高,并富含肌動蛋白相關通路。 CellTrek 顯示具有高 K1 分數的細胞在空間上對應于腫瘤克隆 1。 相比之下,K2 在 Clone2 和 Clone3 中含量較高,并且富含對雌二醇、乳腺導管形態發生和一些分解代謝過程的反應。 有趣的是,K3 模塊在增殖腫瘤細胞方面非常活躍,并且與細胞周期相關過程有關。 K3 評分的空間映射顯示增殖的腫瘤細胞主要位于幾個導管的外圍區域附近。 總之,這些數據表明 CellTrek 工具包可以描繪不同腫瘤亞克隆的拓撲圖及其在 DCIS 組織中的表達程序。

圖片.png

Spatial tumor-immune microenvironment of a DCIS tissue

在另一個具有同步侵入性成分 (DCIS2) 的 DCIS 樣本中,我們分析了 3,748 個單細胞(10X Genomics)和 2,063 個 ST spot(Visium,10X Genomics)。 無監督聚類和 DE 分析確定了 10 個簇,包括三個上皮簇、內皮細胞、周細胞、成纖維細胞、髓細胞、NK/T、B 和漿細胞樣樹突細胞 (pDC)。 CopyKAT 揭示了一個帶有 CNA 的非整倍體上皮Cluster(上皮 3)


圖片.png

H&E 圖像的組織病理學分析確定了 11 個帶有腫瘤細胞的導管區域 (T1-T11) 和包含基質和免疫細胞的中間區域。為了研究腫瘤免疫微環境,我們專注于來自 scRNA-seq 數據的非整倍體細胞和免疫細胞。使用 CellTrek,我們將大部分非整倍體細胞映射到組織學定義的 DCIS 區域,將免疫細胞映射到導管和基質區域周圍的區域。有趣的是,我們發現一些免疫細胞,包括 T、B、骨髓細胞和 pDC,聚集在導管外的區域,尤其是 T1、T2、T6 和 T7。將 CellTrek 結果與 H&E 圖像相結合,我們假設這些區域中存在三級淋巴結構 (TLS)。為了進一步研究這個問題,我們計算了 ST spot水平的 TLS 分數,發現具有高 TLS 分數的spot通常對應于我們 CellTrek 圖中的混合免疫細胞聚集體。此外,我們發現 ST 級 TLS 分數與繪制的免疫細胞計數呈正相關(Pearson's R = 0.36,P = 1.2e-10)。總之,這些結果表明 CellTrek 能夠基于 scRNA-seq 和 ST 數據重建空間腫瘤免疫微環境。


圖片.png
  • 注:CellTrek displays the spatial tumor-immune microenvironment in DCIS2. a, H&E image of the tissue section from the DCIS2 patient. Histopathological annotations of tumor regions are highlighted in red circles with labels from T1 to T11. b, UMAP of DCIS2 scRNA-seq data (tumor cells, B cells, NK/T cells, myeloid and pDC cells). c, CellTrek spatial mapping of tumor cells, B cells, NK/T cells, myeloid and pDC cells. Yellow boxes highlight potential locations of tertiary lymphoid structures (TLS) with aggregation of mixed immune cells. d, ST spot-level TLS signature scores. e, Boxplot showing the association between CellTrek-based immune cell counts and ST spot TLS score quantiles.

接下來,發現一些 T 細胞靠近腫瘤區域,一些位于腫瘤區域的遠端。我們進一步分析了 T 細胞并將它們重新聚集成六種細胞狀態,包括幼稚 T (NaiveT)、CD4+ T (CD4T)、CD8+ T (CD8T)、調節性 T 細胞 (Treg)、耗竭 CD4+ T (CD4Te) 和耗盡的 CD8+ T (CD8Te) 。研究了這些 T 細胞狀態在 CellTrek 圖中的分布。值得注意的是,Tregs、CD4Te 和 CD8Te 細胞大多靠近腫瘤細胞。進一步構建了 T 細胞內的空間圖,發現來自相同譜系的細胞傾向于在空間上共定位。計算了 T 耗竭分數,發現耗竭分數高的 T 細胞傾向于定位在腫瘤區域附近。 T 細胞與其最近的 15 個腫瘤細胞的 K 距離顯示出與 UMAP 上的 T 耗竭評分相反的趨勢。正如預期的那樣,與非抑制性 T 細胞相比,免疫抑制性 T 細胞(Treg、CD4Te 和 CD8Te)具有更高的耗竭評分。根據 K 距離將 T 細胞二值化為腫瘤遠端 (TD) 和腫瘤近端 (TP) 組,發現 TP 組顯示出明顯高于 TD 組的耗竭評分(P = 1.1e-4),表明存在DCIS 導管區域附近的免疫抑制微環境。還發現了類似的趨勢,其中 TP 與 TD 相比,CD4T 和 Treg 細胞的耗竭分數更高,而 NaiveT 細胞的趨勢相反。重要的是,TD 組只包含很少的免疫抑制性 T 細胞,這與發現一致,即耗盡的 T 細胞傾向于共定位在 DCIS 區域附近。


圖片.png
  • 注: f, CellTrek spatial mapping of different T cell states. The contour plot represents the tumor cell densities. g, UMAP of scRNA-seq data showing different T cell states. h, Spatial colocalization graph of T cell states using SColoc. i, CellTrek spatial mapping of the T exhaustion scores. j, UMAP of T cells showing the exhaustion scores. k, UMAP of T cells showing the spatial K-distances to their 15 nearest tumor cells. l, Boxplot comparing the T cell exhaustion scores between different T cell states. m, Boxplot comparing the T cell exhaustion scores between T cells proximal to tumor cells (TP) and T cells distal to tumor cells (TD). n, Boxplot comparing the T cell exhaustion scores between TP and TD within each T cell state. In l, m and n, * indicates P < 0.05, *** indicates P < 0.01, *** indicates P < 0.001 using Wilcoxon rank-sum test. Boxplots show the median with interquartile ranges (25–75%); whiskers extend to 1.5X the interquartile range from the box.

髓細胞的重新聚類確定了四種細胞狀態,包括常規樹突狀細胞 (cDC)、單核細胞和兩種巨噬細胞亞群(Macro1 和 Macro2)。CellTrek 將大部分 cDC 投影到腫瘤近端區域。空間圖顯示 Macro2 細胞與Macro1和cDC共定位。然后我們計算了骨髓細胞到腫瘤細胞的K-距離,發現cDCs總體上顯示出最低的K-距離,而Macro1細胞具有更高的K-距離。K-距離密度 圖顯示了類似的趨勢。我們進一步檢查了 Macro1 細胞的空間共表達,并使用 SCoexp 確定了兩個主要基因模塊(K1、K2)和一個次要模塊。K1 模塊在來自腫瘤遠端區域的巨噬細胞中更活躍,并且相關 具有多個 C1Q 基因、HAVCR2、CD74、HLA-DRA 等。相反,K2 模塊顯示出相反的空間模式并與 CHIT1、CSTB、APOC1、MARCO 等相關


圖片.png

為了正交驗證 CellTrek 推斷的腫瘤和免疫細胞的空間分布,我們對來自 DCIS2 和另一個 DCIS 樣本 (DCIS3) 的組織切片的靶向探針進行了免疫熒光 (RNAscope) 實驗。該數據表明,DCIS 腫瘤細胞區域具有 ERBB2 的高表達,而 TAGLN 標記了導管的基底上皮層。此外,免疫抑制性 T 細胞標志物,包括 CTLA4 和 FOXP3,在 DCIS2 的 DCIS 區域附近具有高表達,這與 CellTrek 結果一致。同樣,在 DCIS3 中,我們在導管附近發現了具有 CTLA4 和 FOXP3 的免疫抑制性 T 細胞。此外,該數據顯示 B 細胞 (MS4A1)、單核細胞/巨噬細胞 (CD68) 和樹突狀細胞 (CD1C) 也在 DCIS 導管區域附近,表明存在 TLS,并且與 DCIS2 的 CellTrek 結果一致。相比之下,在同一組織切片的正常小葉上皮區域中觀察到的免疫細胞較少,尤其是免疫抑制性 T 細胞標志物。這些數據證實了我們對使用 CellTrek 推斷的 DCIS 腫瘤免疫微環境的發現。

圖片.png

DISCUSSION

在這里,作者開發了一種新的計算工具 CellTrek,用于基于 scRNA-seq 和 ST 數據重建空間細胞圖。與傳統的去卷積方法相比,CellTrek 提供了一種新范式,可以將單個細胞直接投影到組織切片中的空間坐標,從而充分利用 scRNA-seq 數據。我們還開發了兩個下游計算模塊(SColoc 和 SCoexp)來進一步分析 CellTrek 結果。通過重建蜂窩空間圖,CellTrek 提供了幾個優勢。首先,它提供了一種靈活的方法來以空間方式研究單個細胞的任何特征(例如,細胞類型/狀態、偽時間),而大多數 ST 解卷積方法只能將SPOT分解為細胞類型,無法實現單細胞級特征映射.其次,CellTrek 非常靈活,可以將任何細胞位置概率/相似性矩陣作為輸入來重建細胞圖,從而實現進一步的下游分析。第三,通過利用度量學習方法和非線性插值,CellTrek 允許以更高的空間分辨率進行更準確的細胞繪圖。最后,隨著更高空間分辨率測序技術的發展,CellTrek 完全能夠將單個細胞繪制到其他空間測序數據,以提供更高的空間粒度。

首先使用模擬和原位數據集對 CellTrek 性能進行基準測試,然后評估不同數據條件下的準確性和穩健性。 通過將 CellTrek 工具包應用于來自小鼠大腦和腎臟的兩個“完善”的數據集,我們展示了其恢復不同細胞類型拓撲結構的能力。 進一步表明,CellTrek 可以通過將分類(即細胞狀態)和連續特征(即偽時間)映射到組織切片來識別高分辨率子結構。 SColoc 還可以將不同細胞類型的空間關系重建為圖形,可進一步用于細胞間通訊分析。 此外,SCoexp 可以檢測多種細胞類型內的空間共表達模塊,顯示組織切片中的拓撲模式。

在研究中,我們對兩個 DCIS 樣本進行了匹配的 scRNA-seq 和 ST 實驗,并應用 CellTrek 工具包來描繪不同導管區域中腫瘤亞克隆的空間分布和腫瘤免疫微環境的拓撲組織。 在 DCIS1 中,我們發現三個腫瘤亞克隆定位于具有不同克隆多樣性水平的不同導管。 盡管先前已經觀察到形態學和基因組腫瘤內異質性,但在這里我們報告了 DCIS 組織中導管網絡內的空間異質性。 在 DCIS2 中,CellTrek 準確映射了腫瘤和免疫細胞,并表明在 DCIS 區域附近存在富含免疫細胞的 TLS。 T 細胞和骨髓細胞的進一步分析揭示了它們相對于腫瘤細胞的空間定位。 這些發現使用 RNAscope 進行了正交驗證。

雖然 CellTrek 是分析 scRNA-seq 和 ST 數據的強大工具,但它有幾個顯著的局限性。 首先,正如我們在模擬數據中顯示的那樣,CellTrek 可以在某些組織區域進行稀疏細胞映射。 為了克服這個問題,人們可以 1) 收集細胞密度較高的組織進行 ST 分析; 2)對更多細胞進行測序或整合多個scRNA-seq數據集。 其次,CellTrek 根據稀疏圖將細胞映射到它們最相似的spot,這需要具有相對較高細胞純度的 ST spot。 增加空間隨機性(降低 ST spot純度)的模擬表明,CellTrek 可能會過度簡化“組織較少”的組織結構的空間復雜性。 最后,僅基于 CellTrek 存在過度解釋數據的風險,因為它是一種計算推理工具。 盡管使用相對嚴格的參數作為默認值來控制假陽性,但建議使用正交驗證來確認生物學發現。

In the future, CellTrek could be improved by including image recognition or deep learning approaches for cell segmentation and identification. Additionally, epigenetic regulation is of great interest in developmental biology and cancer research. Therefore, another future direction is to adapt CellTrek for epigenome data (e.g., scATAC-seq) to understand spatial epigenetic regulation in the tissue sections. Overall, we expect that CellTrek will have a multitude of applications for studying basic biology and human disease in spatial context, as applying scRNA-seq and ST experiments to the same tissues is becoming ever more commonplace.

Method

CellTrek toolkit

圖片.png
圖片.png

示例代碼

options(stringsAsFactors = F)
library("CellTrek")
library("akima")
library("randomForestSRC")
library("packcircles")
library("dplyr")
library("magrittr")
library("dbscan")
library("pheatmap")
library("spatstat")
library("Seurat")
library("SeuratData")
library("reshape2")
library("visNetwork")
library("shiny")
library("plotly")
library("viridis")
library("RColorBrewer")
library("ConsensusClusterPlus")
library("philentropy")

示例數據

brain_st_cortex <- readRDS("brain_st_cortex.rds")
brain_sc <- readRDS("brain_sc.rds")
## Visualize the ST data
SpatialDimPlot(brain_st_cortex)
圖片.png
## Visualize the scRNA-seq data
DimPlot(brain_sc, label = T, label.size = 4.5)
圖片.png

Cell charting using CellTrek

We first co-embed ST and scRNA-seq datasets using traint
brain_traint <- CellTrek::traint(st_data=brain_st_cortex, sc_data=brain_sc, sc_assay='RNA', cell_names='cell_type')
## We can check the co-embedding result to see if there is overlap between these two data modalities
DimPlot(brain_traint, group.by = "type") 
圖片.png
After coembedding, we can chart single cells to their spatial locations. Here, we use the non-linear interpolation (intp = T, intp_lin=F) approach to augment the ST spots.
brain_celltrek <- CellTrek::celltrek(st_sc_int=brain_traint, int_assay='traint', sc_data=brain_sc, sc_assay = 'RNA', 
                                   reduction='pca', intp=T, intp_pnt=5000, intp_lin=F, nPCs=30, ntree=1000, 
                                   dist_thresh=0.55, top_spot=5, spot_n=5, repel_r=20, repel_iter=20, keep_model=T)$celltrek
After cell charting, we can interactively visualize the CellTrek result using celltrek_vis
brain_celltrek$cell_type <- factor(brain_celltrek$cell_type, levels=sort(unique(brain_celltrek$cell_type)))

CellTrek::celltrek_vis(brain_celltrek@meta.data %>% dplyr::select(coord_x, coord_y, cell_type:id_new),
                       brain_celltrek@images$anterior1@image, brain_celltrek@images$anterior1@scale.factors$lowres)

Cell colocalization analysis

Based on the CellTrek result, we can summarize the colocalization patterns between different cell types using SColoc module. Here, we are using glutamatergic neuron cell types as an example. We first subset the glutamatergic neuron cell types from our charting result.
glut_cell <- c('L2/3 IT', 'L4', 'L5 IT', 'L5 PT', 'NP', 'L6 IT', 'L6 CT',  'L6b')
names(glut_cell) <- make.names(glut_cell)
brain_celltrek_glut <- subset(brain_celltrek, subset=cell_type %in% glut_cell)
brain_celltrek_glut$cell_type %<>% factor(., levels=glut_cell)
Then we can use scoloc module to perform colocalization analysis.
brain_sgraph_KL <- CellTrek::scoloc(brain_celltrek_glut, col_cell='cell_type', cell_min=15, use_method='KL', eps=1e-50)
## We extract the minimum spanning tree (MST) result from the graph
brain_sgraph_KL_mst_cons <- brain_sgraph_KL$mst_cons
rownames(brain_sgraph_KL_mst_cons) <- colnames(brain_sgraph_KL_mst_cons) <- glut_cell[colnames(brain_sgraph_KL_mst_cons)]
brain_cell_class <- brain_celltrek@meta.data %>% dplyr::select(id=cell_type, class=class) %>% unique
CellTrek::scoloc_vis(brain_sgraph_KL_mst_cons, meta_data=brain_cell_class)
圖片.png

Spatial-weighted gene co-expression analysis within the cell type of interest

Based on the CellTrek result, we can further investigate the co-expression patterns within the cell type of interest using SCoexp module. Here, we will take L5 IT cells as an example using consensus clustering (CC) method. L5 IT cells first are extracted from the charting result.
brain_celltrek_l5 <- subset(brain_celltrek, subset=cell_type=='L5 IT')
brain_celltrek_l5@assays$RNA@scale.data <- matrix(NA, 1, 1)
brain_celltrek_l5$cluster <- gsub('L5 IT VISp ', '', brain_celltrek_l5$cluster)
DimPlot(brain_celltrek_l5, group.by = 'cluster')
圖片.png
We select top 2000 variable genes (exclude mitochondrial, ribosomal and high-zero genes)
brain_celltrek_l5 <- FindVariableFeatures(brain_celltrek_l5)
vst_df <- brain_celltrek_l5@assays$RNA@meta.features %>% data.frame %>% mutate(id=rownames(.))
nz_test <- apply(as.matrix(brain_celltrek_l5[['RNA']]@data), 1, function(x) mean(x!=0)*100)
hz_gene <- names(nz_test)[nz_test<20]
mt_gene <- grep('^Mt-', rownames(brain_celltrek_l5), value=T)
rp_gene <- grep('^Rpl|^Rps', rownames(brain_celltrek_l5), value=T)
vst_df <- vst_df %>% dplyr::filter(!(id %in% c(mt_gene, rp_gene, hz_gene))) %>% arrange(., -vst.variance.standardized)
feature_temp <- vst_df$id[1:2000]
We use scoexp to do the spatial-weighted gene co-expression analysis.
brain_celltrek_l5_scoexp_res_cc <- CellTrek::scoexp(celltrek_inp=brain_celltrek_l5, assay='RNA', approach='cc', gene_select = feature_temp, sigm=140, avg_cor_min=.4, zero_cutoff=3, min_gen=40, max_gen=400)
We can visualize the co-expression modules using heatmap.
brain_celltrek_l5_k <- rbind(data.frame(gene=c(brain_celltrek_l5_scoexp_res_cc$gs[[1]]), G='K1'), 
                           data.frame(gene=c(brain_celltrek_l5_scoexp_res_cc$gs[[2]]), G='K2')) %>% 
                           set_rownames(.$gene) %>% dplyr::select(-1)
pheatmap::pheatmap(brain_celltrek_l5_scoexp_res_cc$wcor[rownames(brain_celltrek_l5_k), rownames(brain_celltrek_l5_k)], 
                   clustering_method='ward.D2', annotation_row=brain_celltrek_l5_k, show_rownames=F, show_colnames=F, 
                   treeheight_row=10, treeheight_col=10, annotation_legend = T, fontsize=8,
                   color=viridis(10), main='L5 IT spatial co-expression')
圖片.png
We identified two distinct modules. Based on our identified co-expression modules, we can calculated the module scores.
brain_celltrek_l5 <- AddModuleScore(brain_celltrek_l5, features=brain_celltrek_l5_scoexp_res_cc$gs, name='CC_', nbin=10, ctrl=50, seed=42)
## First we look into the coexpression module based on the scRNA-seq embedding
FeaturePlot(brain_celltrek_l5, grep('CC_', colnames(brain_celltrek_l5@meta.data), value=T))
圖片.png
Next we investigate the module scores at the spatial level.
SpatialFeaturePlot(brain_celltrek_l5, grep('CC_', colnames(brain_celltrek_l5@meta.data), value=T))

生活很好,有你更好

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容