作者,追風(fēng)少年i
隨著單細(xì)胞測(cè)序技術(shù)的飛速發(fā)展和相應(yīng)分析工具的大量出現(xiàn),單細(xì)胞測(cè)序的應(yīng)用逐漸走向成熟,能解決的生物學(xué)問(wèn)題也越來(lái)越廣泛。而其中,軌跡分析(擬時(shí)分析)是單細(xì)胞分析中重要的一環(huán),細(xì)胞軌跡分析可以通過(guò)構(gòu)建細(xì)胞間的變化軌跡來(lái)重塑細(xì)胞隨著時(shí)間的變化過(guò)程,幫助研究者從單細(xì)胞水平推斷細(xì)胞之間的演化及分化過(guò)程,尤其在組織發(fā)育、疾病免疫細(xì)胞演化方面的研究起到了至關(guān)重要的作用。
軌跡分析的分析基礎(chǔ)
擬時(shí)序分析,即根據(jù)不同細(xì)胞亞群基因表達(dá)量隨時(shí)間的變化情況,構(gòu)建細(xì)胞譜系發(fā)育,但這里的時(shí)間并不是真時(shí)間,而是一個(gè)虛擬的時(shí)間,是指的細(xì)胞與細(xì)胞之間的轉(zhuǎn)化和演替的順序和軌跡。機(jī)體為響應(yīng)各種應(yīng)激,其細(xì)胞會(huì)從一種功能“狀態(tài)”轉(zhuǎn)變?yōu)榱硪环N功能“狀態(tài)”;當(dāng)細(xì)胞在不同狀態(tài)之間轉(zhuǎn)變時(shí),往往會(huì)經(jīng)歷轉(zhuǎn)錄重組,導(dǎo)致一些基因被沉默,一些基因被重新激活,但純化這些瞬態(tài)細(xì)胞進(jìn)行研究是很困難或不可能的,而單細(xì)胞數(shù)據(jù)完美解決了這個(gè)問(wèn)題。理論上當(dāng)研究若干種細(xì)胞亞型,其潛在的細(xì)胞分化軌跡路徑有7種(如下圖)。包括環(huán)形(cycle)、線性(linear),分叉(bifurcation)、多分叉(Multifurcation),樹型(Tree),以及更復(fù)雜的連接圖(相當(dāng)于樹結(jié)構(gòu)內(nèi)部又形成了回路)、分離圖(圖形連接中存在斷點(diǎn))。
其中通常做的單細(xì)胞或多樣本的單細(xì)胞數(shù)據(jù),軌跡分析大部分符合上圖第七種分化軌跡,即分離圖,但是軌跡分析的方法很多并不能識(shí)別這種具有多種分化軌跡的分化結(jié)果,典型如monocle[1],構(gòu)建的樹形圖會(huì)把免疫細(xì)胞和組織細(xì)胞混合在一起,這樣的結(jié)果明顯是錯(cuò)誤的。因而其實(shí)做軌跡分析最大的基礎(chǔ),就是首先通過(guò)細(xì)胞注釋識(shí)別具有分化關(guān)系的細(xì)胞類型。
軌跡分析的主流分析思路
軌跡分析主要基于以下3個(gè)步驟:
(1)基因篩選:尋找以“擬時(shí)”(即不只是嘈雜)方式變化的基因,并利用這些基因來(lái)構(gòu)造數(shù)據(jù)。
(2)降低維度:一旦選擇了用于細(xì)胞排序的基因,就會(huì)對(duì)數(shù)據(jù)進(jìn)行降維處理。
(3)pseudotime對(duì)細(xì)胞排序:通過(guò)將表達(dá)數(shù)據(jù)投影到較低維空間,構(gòu)建細(xì)胞間的分化軌跡。
基因篩選
構(gòu)建的軌跡分析首先是要選擇用于構(gòu)建軌跡的基因,當(dāng)然,選擇軌跡分析時(shí)用到的基因有很多方法。
(1)離散度高的基因(monocle自帶的方法,默認(rèn)前1000):缺點(diǎn)是a、基因是否與發(fā)育相關(guān)不清楚;b、不同細(xì)胞類型的發(fā)育選取的基因數(shù)量不可能一致;c、基因斷層(即基因并不是連續(xù)變化);d、軟件并不能依據(jù)軌跡基因來(lái)判斷細(xì)胞是否具有多種分化路徑。
(2)Seurat[2]本身挑選高變基因的三種方法(vst、mean.var.plot、dispersion):因?yàn)镾eurat降維聚類的關(guān)系,Seurat選擇的高變基因也可以用于做軌跡分析,但缺點(diǎn)也很明顯a、基因是否與發(fā)育相關(guān)不清楚;b、不同細(xì)胞類型的發(fā)育選取的基因數(shù)量不可能一致;c、基因斷層;d、Seurat本身挑選的高變基因基于樣本整體,沒(méi)有分化關(guān)系的也納入了分析。
(3)如果背景很強(qiáng),最好的解決方式是根據(jù)生物學(xué)背景選取發(fā)育的相關(guān)基因(例如采取多樣本、多時(shí)間點(diǎn)的策略推斷發(fā)育基因,a、對(duì)比不同時(shí)間相同細(xì)胞類型的基因變化關(guān)系。b、挑選表征分化關(guān)系的基因進(jìn)行軌跡分析),缺點(diǎn)很明顯,難度特別大。
(4)尋找細(xì)胞類型之間具有連續(xù)變化的基因,理論上這是最優(yōu)的選擇。下圖為monocle軟件分析得到的軌跡分析基因變化圖。
降低維度
降維方法除了在基礎(chǔ)分析篇提到的線性降維PCA與非線性降維TSNE、UMAP之外,針對(duì)軌跡分析會(huì)有獨(dú)特的降維方法。來(lái)了解一下軌跡分析軟件用到的主流降維方式。
ICA(independent component analysis,獨(dú)立成分分析)
ICA是找出構(gòu)成信號(hào)的相互獨(dú)立部分(不需要正交),對(duì)應(yīng)高階統(tǒng)計(jì)量分析。ICA理論認(rèn)為用來(lái)觀測(cè)的混合數(shù)據(jù)陣X是由獨(dú)立元S經(jīng)過(guò)A線性加權(quán)獲得。
類似于PCA,ICA也是找到一個(gè)特征空間,數(shù)據(jù)的處理就都需要映射到新空間中去,但是不同于PCA,ICA是將數(shù)據(jù)解構(gòu),從混雜的信號(hào)中分離原始的多個(gè)生物信號(hào)。
ICA與PCA一樣,是一種線性降維方法,常用于評(píng)估數(shù)據(jù)的原始組成,在ICA中,這些信號(hào)被認(rèn)為是相互獨(dú)立的。
DF (Diffusion Maps)擴(kuò)散映射
Diffusion Maps是一種非線性降維的方法,如果兩個(gè)點(diǎn)的距離較近,則從一個(gè)點(diǎn)行走到另一個(gè)點(diǎn)的概率就大,反之,如果兩個(gè)點(diǎn)的距離較遠(yuǎn),則從一個(gè)點(diǎn)行走到另一個(gè)點(diǎn)的概率就小。Diffusion Maps就是將兩個(gè)點(diǎn)之間的距離轉(zhuǎn)換成他們之間能夠產(chǎn)生隨機(jī)行走的概率,并用這個(gè)隨機(jī)行走的過(guò)程去捕獲數(shù)據(jù)的“鄰居”結(jié)構(gòu),從而將高維數(shù)據(jù)展開(kāi),用低維表示。如下圖:
反向圖嵌入(DDRTree)降維
Monocle在對(duì)數(shù)據(jù)進(jìn)行降維時(shí)采用DDRTree方法,這種方法會(huì)將細(xì)胞位點(diǎn)擬合到“樹”形結(jié)構(gòu)上,這種方法也最為大多數(shù)人所接受,基礎(chǔ)這種降維,衍生了PAGA[3],Slingshot、TSCAN等分析方法。
PHATE降維方法
PHATE降維方法1、通過(guò)局部相似性對(duì)局部數(shù)據(jù)信息進(jìn)行編碼;2、使用潛在距離編碼數(shù)據(jù)中的全局關(guān)系;3、將潛在距離信息嵌入低維以進(jìn)行可視化(先考慮局部,再縱觀全局,最后低維展示的優(yōu)化)。這種方法的優(yōu)勢(shì)在于以所需的維數(shù)提供數(shù)據(jù)集的局部和全局結(jié)構(gòu)的準(zhǔn)確、去噪表征,而無(wú)需對(duì)數(shù)據(jù)結(jié)構(gòu)強(qiáng)加任何強(qiáng)假設(shè),下圖是PHATE降維示意圖。
當(dāng)然,除了上述介紹的方法,還有很多其他的方式,下面是對(duì)軟件降維方法的總結(jié):
軟件 | 降維方法 |
---|---|
Monocle | DDRTree,ICA, tSNE, SimplePPT, L1-graph, SGL-tree |
Monocle3、Vector | UMAP |
Scanpy(PAGA)、URD | Diffusion Maps,dpt |
PHATE | PHATE |
...... | ...... |