今天領導非讓寫微信稿,其實我是不太想寫的,但是呢,官大一級壓死人,所以寫的微信稿原版分享給大家,原版是不會有廣告什么的,純粹就是給大家分享一些好的分析點,供大家參考。
10X空間轉(zhuǎn)錄組,空間位置帶給了我們什么信息?
2020年被Nature Methods評為年度技術的空間轉(zhuǎn)錄組,時至今日,陪伴我們科研人員已經(jīng)快2年了,在這期間,涌現(xiàn)了很多別具一格的分析角度,不斷刷新著我們對組織空間理解。對于生物學組織而言,細胞空間位置分布的重要性不言而喻,對于細胞空間分布的研究,也是我們研究發(fā)育、疾病等等生物學問題最為重要的課題之一,其中最為關鍵的是,對于空間位置信息的認知,如何深入挖掘空間上的生物學內(nèi)容,逐漸成為我們倚重的分析點。
目前對空間轉(zhuǎn)錄組位置信息的分析嚴重不足,典型如Seurat[1],更多的基于每個spot的基因表達信息進行降維聚類等下游分析,幾乎完全缺乏對空間信息的處理;也包括一些尋找空間高變基因的軟件如SpatialDE[2]、SPARK[3]等,也僅僅是簡單利用空間位置尋找基因在空間上的區(qū)域變化,完全無法滿足科研人員對于組織有序性和不同細胞類型在空間位置上“協(xié)作”的研究;尤其對于細胞在空間上聚集的原因與作用,細胞在不同層面的“等級”變化等等,都在不斷強調(diào)對空間位置信息的挖掘。前人栽樹,后人乘涼,就讓我們帶著對空間位置信息的分析角度,目睹其帶給我們的生物學認知。
分析點1、空間位置上的細胞“網(wǎng)絡”
什么是細胞“網(wǎng)絡”?細胞在空間位置上不是隨機出現(xiàn)的,細胞在空間上的定位受到了周圍環(huán)境以及自身狀態(tài)的影響,而這種影響的結果,就是每種細胞類型在空間上形成了具有區(qū)域偏好性的細胞“網(wǎng)絡”,在文章Spatial mapping reveals human adipocyte subpopulations with distinct sensitivities to insulin[4]中,為了系統(tǒng)的確定白色脂肪組織(WAT)的細胞區(qū)域“網(wǎng)絡”,計算了每種細胞類別中的空間位置彼此相鄰的傾向,這里我們稱之為同型細胞“網(wǎng)絡”。文章的分析結果表明,所有免疫細胞、脂肪細胞祖細胞和血管細胞以及成熟脂肪細胞的同型細胞“網(wǎng)絡”中都表現(xiàn)出很大的跨度,一些細胞類型幾乎橫跨整合組織區(qū)域,如圖:
- 圖1 同型細胞網(wǎng)絡
同型細胞“網(wǎng)絡”是為了確定單一細胞類型在空間上的分布特點,但為了確定不同細胞類別之間的空間關系,作者利用軟件STUtility來執(zhí)行成對的異型鄰域分析,我們稱之為異型細胞“網(wǎng)絡”,用來衡量不同細胞類型之間的空間臨近關系。如圖:
- 圖2 異型細胞網(wǎng)絡
作者的研究發(fā)現(xiàn),代表較大血管結構的Spot在血管樣組織學特征上彼此靠近;并且發(fā)現(xiàn)特定祖細胞位于巨噬細胞附近并形成用于組織修復和重塑的脂肪生成生態(tài)位。
分析點2、探索細胞“單元”
什么是細胞“單元”?一個細胞“單元”的組成包括目標細胞類型和圍繞在其周圍的細胞類型,這幾種細胞類型關系密切,相互合作行使一種重要的生物學功能,也就是說,細胞“單元”指行使某項特殊的生物學功能的細胞“團隊”,在文章Identification of HSC/MPP expansion units in fetal liver by single-cell spatiotemporal transcriptomics[5]中,作者在研究細胞共定位的時候發(fā)現(xiàn),多能祖細胞的周圍顯著富集巨噬細胞和內(nèi)皮細胞,如圖:
- 圖3 細胞“單元”
文章通過分析空間位置的臨近細胞通訊,證明了多能祖細胞和周圍富集的細胞類型之間形成頻繁的“互動”,鑒于多能祖細胞點間的特征在于細胞之間的空間接近性和豐富的交互信號,由此將多能祖細胞與周圍顯著富集的細胞類型定義為細胞“單元”,其中多能祖細胞位于點的核心并與周圍的生態(tài)位細胞細胞類相互作用,支持并促進了多能祖細胞的擴增。
分析點3、CNV事件的空間圖譜
我們在研究腫瘤樣本的單細胞數(shù)據(jù),CNV分析是必不可少的一環(huán),基因表達現(xiàn)在廣泛運用于推斷單細胞中的 CNV,識別染色體 (chr) gain和loss的區(qū)域。但是對于研究而言,僅僅知道發(fā)生的CNV事件遠遠無法滿足我們對腫瘤組織的認知,腫瘤內(nèi)部空間異質(zhì)性的信息隨著組織解離也無法重現(xiàn),所以,文章The spatial landscape of clonal somatic mutations in benign and malignant tissue[6]通過特有的計算方法--iCNV分析空間轉(zhuǎn)錄組數(shù)據(jù),構建CNV事件的空間圖譜,如圖:
- 圖4 空間CNV圖譜
空間CNV的圖譜,主要基于一下考慮:(1)基因組不穩(wěn)定性如何在組織學上的良性組織中出現(xiàn),這可能代表癌癥進化的早期事件;(2)CNV事件和頻率的空間分布;(3)空間CNV事件的分布與活性,組織區(qū)域的CNV事件分布與活性差異很大,CNV事件的空間圖譜有利于我們對疾病的認知和診斷,甚至治療。空間 iCNV 分析可以提供基因組完整性的CNV圖譜,確定某些具有增加 iCNV 活性的區(qū)域,文中的分析結果發(fā)現(xiàn)大部分組織區(qū)域的隨即拷貝數(shù)(stochastic copy number,CN)是中性的,這表明 iCNV 可以識別感興趣的組織區(qū)域,尤其是腫瘤趨向惡性組織區(qū)域,彌補形態(tài)學和表達分析上的分析不足。
分析點4、空間細胞密度
組織是一個有序的細胞結構,細胞不會隨機出現(xiàn)在組織的各個區(qū)域,而是嚴格按照空間位置進行分布,當然,受到周圍細胞環(huán)境的很多影響,文章Spatially-resolved transcriptomics analyses of invasive fronts in solid tumors[7]在研究肝內(nèi)膽管癌(ICC)的分析中發(fā)現(xiàn),ICC 患者的四個區(qū)域位點的細胞組成和空間分布高度異質(zhì)。不同區(qū)域在空間上具有不同的組織結構,由不同的主要細胞成分組成。在腫瘤組織中,成纖維細胞、巨噬細胞和 B 細胞是最豐富的細胞,幾乎占所有細胞成分的一半,如圖:
文章的分析具體而言,在腫瘤組織中檢測到的成纖維細胞百分比高于其他三個區(qū)域,這意味著 ICC 腫瘤組織的高度促纖維化特性;與鄰近正常組織相比,腫瘤組織和邊緣區(qū)域的耗竭T細胞和細胞毒性T細胞的比率更高,表明 T 細胞的抑制狀態(tài)和隨后的腫瘤微環(huán)境中的癌癥免疫逃避。
說了這么多,其實都還是空間轉(zhuǎn)錄組技術帶給我們的冰山一角,對于空間信息和轉(zhuǎn)錄組信息的挖掘遠沒有停止,隨著研究的不斷深入,相信一定會有更多、更加一陣見血的分析角度來加快對生物學問題的認知,更加有效的手段解決我們的生物學問題。
[1] Yuhan Hao et al.Integrated analysis of multimodal single-cell data.Cell.Volume 184, ISSUE 13, P3573-3587.E29
[2] Svensson V, Teichmann SA & Stegle O (2018) SpatialDE: identification of spatially variable genes. Nat Methods 15: 343–346.
[3] Sun S, Zhu J & Zhou X (2020) Statistical analysis of spatial expression patterns for spatially resolved transcriptomic studies. Nat Methods 17: 193–200
[4] Jesper B?ckdahl et al.Spatial mapping reveals human adipocyte subpopulations with distinct sensitivities to insulin.Cell Metabolism 33, 1869–1882
[5] Suwei Gao et al.[Identification of HSC/MPP expansion units in fetal liver by single-cell spatiotemporal transcriptomics.Cell Research (2021) 0:1-16
[6] Andrew Erickson et al.The spatial landscape of clonal somatic mutations in benign and malignant tissue.Biorxiv.
[7] Liang Wu et al.Spatially-resolved transcriptomics analyses of invasive fronts in solid tumors.biorxiv
最后補充一點數(shù)學知識
基于熵概念的一系列指標是機器學習方法中經(jīng)常使用的。這里統(tǒng)一做一個全面的整理。(以離散隨機變量形式給出)
熵
隨機變量,熵為
是其平均不確定性的度量。
聯(lián)合熵
隨機變量,
的聯(lián)合分布為
,兩者的聯(lián)合熵為
條件熵
=
條件下的
的熵為
條件熵是
一對隨機變量的熵,等于其中一個變量的熵,加上另一個的條件熵
進而可推斷得到熵的鏈式法則
信息增益
對樣本總體(樣本量)有多個類
=1......
,則樣本集的信息總和為(類似總體隨機變量的熵)
對樣本集進行分組
各分組的信息總和則為
而
生活很好,有你更好