單細胞系列課程-10 Trajectory inference analysis of scRNA-seq data

視頻鏈接:https://www.youtube.com/watch?v=XmHDexCtjyw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=11
練習地址:https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-trajectories/session-trajectories.md

一、為什么要做軌跡分析以及軌跡分析的定義

在進行標準的單細胞分析流程得到聚類結果后,可以進行軌跡分析,并進一步進行基因表達分析。
但并不是只有聚類結果才可進行軌跡分析,標準分析中的很多步驟都可以follow with軌跡分析。

在整個生命生長發育過程中,細胞都在不斷從一種功能“狀態”過渡到另一種功能“狀態”(如下圖)。處于不同狀態的細胞表達不同的基因,產生蛋白質和代謝物的動態重復,從而完成它們的工作。當細胞在不同的狀態間轉化時,會經歷轉錄重組的過程,一些基因被沉默,而另一些則被激活。這些瞬態通常很難描述,因為在更穩定的端點狀態之間凈化細胞可能很困難或不可能。但由于這個過程是連續發生的,我們可以使用軌跡推斷(TI,trajectory inference)的方法可以根據測序的細胞(瞬時狀態)之間表達模式的相似性對單細胞沿著軌跡進行排序,以此來模擬細胞動態變化的過程。也就是重建分化軌跡或者擬時間軸。

但值得注意的是,并不是所有樣本都適合進行軌跡分析。

比如我們明確知道骨髓中存在分化中間態的細胞(存在從干細胞到成熟細胞的分化過程),因此骨髓的樣本可以進行軌跡分析。但一些樣本如PBMC中幾乎都是分化成熟的細胞,雖然也可以做軌跡分析,但是意義不大。此外,存在分化過程的細胞也有差別。比如B細胞到漿細胞的分化更像是一個線形過程,不存在分支(branch),所以B細胞不適合做branching。但Th細胞向其亞型的分化可能就存在多個分支。

自2014年以來,TI的各種算法得到飛速發展,至2018年已有接近60種方法。

Trajectory Inference主要方法的pipeline總結:主要包括兩個step:降維和軌跡建模
文獻:Computational methods for trajectory inference from single-cell transcriptomics

二、降維方法

降維的方法包括線性降維PCA,ICA等,和非線性降維TSNE,UMAP,DF等。在學習軌跡分析之前,先來了解兩種之前接觸的比較少的降維方法:ICA和DF。

1. ICA (Independent Component Analysis)獨立成分分析

ICA是數據結構的一種方法(A method for decomposing the data)。monocle1使用的就是ICA方法。

ICA與PCA比較類似,PCA(對高斯分布的數據效果較好)是將高變基因分配到主要的主成分中,用主成分來進行后續分析。而ICA是將數據解構,從混雜的信號中分離原始的多個生物信號。

PCA和ICA的區別:
主成分分析假設源信號間彼此非相關,獨立成分分析假設源信號間彼此獨立。
主成分分析認為主元之間彼此正交,樣本呈高斯分布;獨立成分分析則不要求樣本呈高斯分布。

ICA的缺點:

  1. ICA假設它找出來的生物信號都是相互獨立的。
  2. 每個信號的來源都是非高斯分布。舉例來說,在教室中放一些麥克風,在很多人都同時講話的時候,我們可以使用ICA來對混雜信號進行解構以判斷是誰在講話。這些混雜的聲音信號就是非高斯分布的。但是很多的生物學信號都是高斯分布的。對單細胞數據來說,也很難區分是高斯分布還是非高斯分布。

總結:ICA和PCA一樣,是一種線性降維方法。常被用于評估數據的原始組成。在ICA中,這些原始信號被認為是互相獨立的,而且,ICA會先假定單細胞數據是非高斯分布的,實際上往往不是這樣。不同的信號在ICA分析中同等重要,但ICA不能確定實際有多少個信號源。

2. DF (Diffusion Maps)擴散映射

Diffusion maps是一種非線性降維方法。
Diffusion maps原理講解視頻:https://www.bilibili.com/video/av38891467/

Diffusion Map用的是Diffusion Process的方法。如果兩個點距離較近,則從一個點隨機行走到一個點的概率就大。反之,如果兩個點距離較遠,則從一個點隨機行走到一個點的概率就小。Deffusion Map就是這樣將兩個點之間的距離轉換成它們之間能夠產生隨機行走的概率 ,并用這個隨機行走的過程去捕捉數據的neighborhood結構,從而將一個高維的扭曲的數據展開,變成一個低維的visualization。

簡單來說,為了把可能性轉化成距離,DM可以計算B到C的可能性,再計算A到C的可能性。根據公式,如果兩種可能性差不多大,那么他們的差值就趨于0。說明A到B的過程可以通過C來很好的連接起來。

DM是一種非線性降維(UMAP和tSNE也是非線形降維)。點和點之間(也就是細胞和細胞之間的距離)是通過probability來計算的。

三、定義軌跡

在學習了ICA和DM兩種降維方法后,現在我們想要建立細胞之間的關系,定義軌跡應該從哪里開始,在哪里結束。

1. MST (minimum spamming tree)

舉個例子:下圖中有很多點,每個點之間的距離都可以計算(比如使用DM來計算點和點之間的possibility)。將點連線,尋找一個所有的點之間距離加和最小的連接方式,得到的結果如黑色的粗線所示,這就是最小生成樹。細胞數目越多,MST的軌跡構建越準確。

monocle1中使用的就是這種方式。如下圖a:每個細胞都代表了高維空間中的一個點,將高維空間降維(使用PCA/ICA或UMAP/TSNE),隨后使用MST定義細胞軌跡,并將細胞按照MST構建的生成樹排序,標注上細胞類型,就可以得到細胞軌跡。

The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells

但值得注意的是,MST只能構建細胞軌跡,但不能告訴你端點是轉錄起始點還是終止點,也就是不知道是從哪個方向向哪個方向分化。所以如果有先驗知識(比如干細胞向別的細胞分化),就會容易很多。
此外,由于MST沒有循環,所以不適用于增殖細胞(細胞周期)樣本。

2. RGE(Reverse graph embedding, i.e. DDRTree and others)

第二種方法叫做反向圖嵌入。
如下圖A和B:在使用MST進行軌跡推斷時,由于最小生成樹高度依賴于每個點的位置和點與點之間的距離,僅僅只是某個點的位置有些微變化就會得到完全不同的細胞軌跡。而REG的方法(圖C)則是先對細胞進行聚類,再對細胞群的平均值進行軌跡構建。

TSCAN: Pseudo-time reconstruction and evaluation in single-cell RNA-seq analysis

Monocle2中使用的就是RGE方法(DDRTree)。

Reversed graph embedding resolves complex single-cell trajectories

上圖顯示的是RGE的工作原理。每個細胞都代表了高維空間中的一個點,使用PCA或其他方法來對細胞進行降維后,根據假定的細胞cluster的中心點來對軌跡進行構建。隨后計算細胞到假設軌跡的距離,并將細胞分配到距離細胞最近的軌跡cluster上,分配完成后對中心點進行更新,重建軌跡,再將二維軌跡投射到多維空間里,比較與原始數據的契合度,如果match的不好,就重新降維和構建軌跡,循環這個過程,直到細胞軌跡能充分反映原始data(類似降維中的TSNE和UMAP循環)。這時就可以選擇軌跡的root(需要先驗知識),并對擬時間軸或者發育軌跡進行定義。根據軌跡圖中的分叉,還可以定義cell fate。

REG還衍生出了許多方法,比如PAGA、Slingshot、TSCAN、CellRouter等。

Monocle3進行聚類的原理與Monocle2類似
Monocle3的工作流程:scRNAseq數據 --> 預處理(標準化+PCA)--> 降維 --> 聚類 --> 擬時間軸的建立(DDRTree、SimplePPT、L1-graph)--> 差異分析

和Monocle2相比,Monocle3的主要update:

3. RNA velocity (gene expression trajectory)

RNA velocity是基于真實的轉錄動力學,可用于細胞基因表達的動態分化的研究。

RNA velocity of single cells

如上左圖,剛轉錄出的mRNA包含外顯子和內含子,經過splicing切除內含子后,得到用于編碼蛋白的spliced mRNA。spliced mRNA的豐度由未成熟mRNA的splicing速度和降解速率共同決定。如上中圖:每個點代表一個細胞,在擬時間軸上,未經過剪切的mRNA的出現始終早于經過剪切的mRNA。如上右圖:紅色代表未經過剪切的mRNA,藍色代表經過剪切的mRNA,可以看出,這些細胞的應該是從左往右分化的,因此Velocity可以用于定義軌跡的起點分支和終點。也就是說,Velocity可以在不知發育過程的前提下,預測譜系的方向(如下圖)。

RNA velocity of single cells

Velocity可以用于周期的軌跡

RNA velocity of single cells

總結:

Which method should I use?

A comparison of single-cell trajectory inference methods
A comparison of single-cell trajectory inference methods
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。

推薦閱讀更多精彩內容