在發育過程中,細胞會對刺激做出反應,在整個生命過程中,從一種功能性“狀態”轉變為另一種功能性“狀態”。處于不同狀態的細胞表達的基因不同,產生蛋白質和代謝物的動態重復序列,從而完成它們的工作。當細胞在不同狀態間轉變時,會經歷轉錄重組的過程,其中一些基因被沉默,而另一些基因被激活。這些瞬時狀態通常難以表征,因為在更穩定狀態之間純化細胞是困難或不可能的。單細胞RNA-Seq可以使您在不需要純化細胞的情況下查看這些狀態。然而,要做到這一點,我們必須確定每個細胞的可能狀態范圍。
今天給大家介紹的是基于Monocle2(目前Monocle已經更新至3版本,該版本仍處在開發階段)的擬時分析。Monocle不是通過實驗將細胞純化成離散狀態,而是使用一種算法來學習每個細胞必須經歷的基因表達變化序列,作為動態生物學過程的一部分。一旦它了解了基因表達變化的整體“軌跡”,Monocle就可以將每個細胞放置在軌跡中的適當位置。Monocle依靠一種叫做反向圖嵌入的機器學習技術來構建單細胞軌跡(算法參考文獻:Reversed graph embedding resolves complex single-cell trajectories)。
Monocle2分析主要基于以下3個步驟:
1、基因篩選:Monocle尋找以“有趣”(即不只是嘈雜)方式變化的基因,并利用這些基因來構造數據。
2、降低維度:一旦選擇了用于細胞排序的基因,Monocle就會對數據進行降維處理。
3、pseudotime對細胞排序:通過將表達數據投影到較低維空間,構建細胞間的分化軌跡。
結果解讀:
圖一:樹形結構軌跡圖
圖中每個點代表一個細胞,具有相似細胞狀態的細胞被聚到一起,每個分支點代表著一個可能的細胞生物學過程決策點(該例圖中有2個分支點)。左圖為按照細胞聚類信息進行顏色標注(如果您已經對每個cluster進行了細胞鑒定,也可以基于具體的細胞進行著色),右圖為按照分化狀態(State)進行顏色標注。
當細胞cluster或state數量過多時,很難看出每個cluster或狀態落在樹上的哪個位置(如圖一左圖)。因此,我們還可以將每個cluster或狀態的軌跡圖分開展示,便于對每個cluster或狀態進行研究。
圖二:每類細胞(或State)軌跡圖
確定了分化起點后,Monocle可以模擬出每個細胞所處的分化時間(pseudotime,偽時間),并尋找隨著分化時間逐漸升高或降低的基因(圖四為擬時序變化相關基因(Top6)表達分布圖和top50基因熱圖,如果有特別關注的基因也可以基于關注的基因進行繪制)。
圖三:每個細胞分化時間(pseudotime)軌跡圖
圖四:擬時序變化相關基因表達分布圖和熱圖