hello,大家好,今天我們要分享一個很難的數學理論,大家在用單細胞做velocyto的時候,如果用到的是scvelo,那么會有三種模式,列舉如下:
(1)穩態/確定性模型
velocyto 中使用穩態/確定性模型對RNA 速率進行估計。在假定轉錄階段(誘導和抑制) 持續足夠長的時間以達到穩態平衡的情況下,速率被量化為實際觀測值如何偏離穩態平衡。平衡mRNA 水平近似于在假定的上下分位數的穩定狀態下的線性回歸。這種簡化是通過假設一個跨基因的通用剪接率和數據中反映的穩態mRNA 水平來實現的。基于這些假設,可能導致速率估計和細胞狀態的錯誤,特別是當一個種群包含多個異質亞種群動態時。
(2)隨機模型
隨機模型的目標是更好地捕捉穩態,但與穩態模型的假設相同。它是通過處理轉錄,剪接和降解作為概率事件,從而納入二階矩。也就是說,穩態水平不僅與mRNA 水平近似,而且與內在表達變異性近似。
(3)動態模型
動態模型(最強大,但計算量最大) 解決了每個基因的剪接動力學的全部動態。因此,它使RNA 速率適應廣泛變化的規格,如非平穩群體,因為它不依賴于限制一個共同的剪接率或待抽樣的穩態。通過迭代估計反應速率和潛在細胞特異性變量的可識別參數,即轉錄狀態和細胞內潛伏時間,在基于概率的期望最大化框架中求解剪接動力學。該模型能夠進一步以一種基于概率的方式系統地識別動態驅動基因,從而找到控制細胞命運轉變的關鍵驅動因素。此外,動態模型推斷了一個普遍的細胞內潛伏時間共享的基因,能夠將相關基因和識別轉錄變化的機制聯系起來。
其實大家應該都明白,發育本身就是動態的過程,推薦大家使用動態模式,這一篇我們就來分享速率動態模型的理論依據,參考文獻在Generalizing RNA velocity to transient cell states through dynamical modeling ,2020年發表于nature biotechnology,IF55分,這個相較于之前18年的Nature文章提出的RNA速率的概念的基礎上,并對之前的數學模型做了進一步優化,在這篇文章中提出了更全面更準確的模型和方法。而我們今天就來分享這個數學理論。
Abstract
RNA Velocyto開辟了研究單細胞 RNA 測序數據中細胞分化的新方法。它根據其剪接和未剪接的信使 RNA (mRNA) 的比率描述了單個基因在給定時間點的基因表達變化率。然而,如果違反了共同剪接率的中心假設和對具有穩態 mRNA 水平的完整剪接動力學的觀察,則會出現velocyto估計的錯誤。在這里,開發介紹了 scVelo,這是一種通過使用基于似然的動力學模型解決剪接動力學的完整轉錄動力學來克服這些限制的方法。這將 RNA velocyto推廣到具有瞬態細胞狀態的系統,這在發育和對擾動的響應中很常見。分析將 scVelo 應用于解開神經發生和胰腺內分泌發生中的subset動力學。推斷基因特異性的轉錄、剪接和降解速率,恢復每個細胞在潛在分化過程中的位置并檢測推定的驅動基因。 scVelo 將促進譜系決定和基因調控的研究。
Introduction
單細胞轉錄組學能夠以單細胞分辨率對生物過程進行unbiased的研究,例如細胞分化和lineage choice。由此產生的計算問題稱為trajectory inference。從處于發育過程不同階段的細胞群開始,軌跡推斷算法旨在重建導致潛在細胞命運的轉錄變化的developmental sequence。目前已經開發了多種此類方法,通常將動力學建模為細胞沿著理想化的、潛在的分支軌跡的進展。軌跡推斷的一個核心挑戰是單細胞 RNA 測序 (scRNA-seq) 的破壞性,它只能揭示細胞狀態的靜態快照。為了從描述性軌跡模型轉向預測性軌跡模型,需要額外的信息來限制可能產生相同軌跡的可能動態空間。因此,lineage-tracing assays可以通過基因改造添加信息,以重建譜系關系。然而,這些檢測方法設置起來并不簡單,并且在許多系統(例如人體組織)中受到技術限制。
RNA velocyto的概念通過利用新轉錄的、未剪接的前 mRNA 和成熟的剪接 mRNA 可以在常見的 scRNA-seq protocol中區分的事實,使定向動態信息的恢復成為可能,前者可通過內含子的存在檢測。假設一個簡單的每個基因反應模型將未剪接和剪接 mRNA 的豐度聯系起來,可以推斷出 mRNA 豐度的變化,稱為 RNA velocyto。正 RNA velocyto表明基因被上調,這種情況發生在該基因的未剪接 mRNA 豐度高于預期的穩定狀態的細胞中。相反,負velocyto表明基因被下調。然后可以使用跨基因的velocyto組合來估計單個細胞的未來狀態。原始模型在假設基因表達的誘導和抑制的轉錄階段持續足夠長的時間以達到活躍轉錄和非活躍沉默穩態平衡的情況下估計velocyto。在推斷處于恒定轉錄穩態的未剪接與剪接 mRNA 豐度的比率后,velocyto被確定為觀察到的比率與其穩態比率的偏差。推斷穩態比率有兩個基本假設,即 (1) 在基因水平上,捕獲了具有轉錄誘導、抑制和穩態 mRNA 水平的完整剪接動態; (2) 在細胞水平上,所有基因共享一個共同的剪接率。這些假設經常violated,特別是當一個群體包含多個具有不同動力學的異質亞群時。將這種建模方法稱為“穩態模型”。
為了解決上述限制,作者開發了 scVelo,這是一種基于可能性的動力學模型,可以解決完整的基因轉錄動力學問題。 因此,它將 RNA velocyto估計推廣到瞬態系統和具有異質亞群動力學的系統。 在有效的期望最大化 (EM) 框架中推斷轉錄、剪接和降解的基因特異性反應速率以及潛在的基因共享潛伏時間。 推斷的潛伏時間代表細胞的internal clock,它準確地描述了細胞在潛在生物過程中的位置。 與現有的基于相似性的偽時間方法相比,這種潛在時間僅基于轉錄動力學,并考慮了運動的速度和方向。
示例展示了動力學模型對海馬齒狀回神經發生和胰腺內分泌發生中各種細胞譜系的能力。與穩態模型相比,動態模型通常會在相鄰細胞之間產生更一致的速度估計,并準確識別轉錄狀態。它提供了對循環胰腺內分泌前體細胞的細胞狀態的fine-grained見解,包括它們的譜系定型、細胞周期退出以及最終的內分泌細胞分化。在這里,分析推斷的潛伏時間能夠重建轉錄組事件和細胞命運的時間序列。此外,scVelo 確定了調節變化的機制,例如過渡狀態和細胞命運承諾的階段。在這里,scVelo 確定了這些轉錄變化的假定驅動基因。驅動基因顯示出明顯的動態行為,并通過動態模型中的高可能性特征系統地檢測到。此過程提出了標準差異表達范式的基于動力學的替代方案。
最后,建議進一步解釋基因表達的隨機性,通過將轉錄、剪接和降解視為概率事件而獲得。 分析展示了如何為穩態模型實現這一點,并展示其在很大程度上捕獲從完整動力學模型推斷出的方向性的能力。 軟件scVelo對穩態模型的顯著改進,同時在計算時間上同樣有效。 動態、隨機和穩態模型在 scVelo 中可用作強大且可擴展的實現 (https://scvelo.org)。
Results
Solving the full gene-wise transcription dynamics at single-cell resolution.
與original framework一樣,使用以下描述的基本反應動力學模擬轉錄動力學(導數和偏導數不知道大家還知道多少)
- 注:Modeling transcriptional dynamics captures transcriptional induction and repression (‘on’ and ‘off’ phase) of unspliced pre-mRNAs, their conversion into mature, spliced mRNAs and their eventual degradation.
對于每個基因,獨立于所有其他基因。 與original framework相反,為了解釋未觀察到的穩態,這里明確地求解這些方程并推斷出由兩組參數控制的剪接動力學:(1) 轉錄反應速率 (
),剪接
和degradation
; (2) 細胞特異性潛在變量——即離散的轉錄狀態
和連續的時間
,其中
代表單個觀察到的細胞。
- 注:An actively transcribed and an inactive silenced steady state is reached when the transcriptional phases of induction and repression last sufficiently long, respectively. In particular in transient cell populations, however, steady states are often not reached as, for example, induction might terminate before mRNA-level saturation, displaying an ‘early switching’ behavior.
如果給定潛在變量,則可以獲得反應速率的參數,反之亦然。因此,通過 EM 推斷參數,通過最大似然迭代估計反應速率和潛在變量。 In the expectation step, for a given model estimate of the unspliced/spliced phase trajectory,
- 注:
, We propose scVelo, a likelihood-based model that solves the full gene-wise transcriptional dynamics of splicing kinetics, which is governed by two sets of parameters: (1) reaction rates of transcription, splicing and degradation, and (2) cell-specific latent variables of transcriptional state and time. The parameters are inferred iteratively via EM. For a given estimate of reaction rate parameters, time points are assigned to each cell by minimizing its distance to the current phase trajectory. The transcriptional states are assigned by associating a likelihood to respective segments on the trajectory—that is, induction, repression and active and inactive steady state.
, The overall likelihood is then optimized by updating the model parameters of reaction rates. The dashed purple line links the inferred (unobserved) inactive with the active steady state.
由此產生的基因特異性軌跡 χ,由反應速率和轉錄狀態的可解釋參數參數化,明確描述了 mRNA 水平如何隨潛伏時間演變。 而穩態模型使用線性回歸來擬合假設的穩態,如果沒有觀察到這些就會失敗,而動力學模型解決了未剪接和剪接 mRNA 豐度的完整動態,從而使未觀察到的穩態也能被忠實地捕獲。 然后,RNA 速度由剪接 mRNA 豐度的導數明確給出,由推斷變量參數化。
為了使反應速率的推斷參數與基因相關,基因潛伏時間與代表細胞internal clock的通用基因共享潛伏時間相耦合
這個universal time使我們能夠在所有基因剪接動力學的支持下解析細胞在生物過程中的相對位置。 此外,通過在基因之間共享信息,可以更自信地識別轉錄狀態。 在模擬剪接動力學上,潛在時間能夠以近乎完美的相關性和正確的尺度重建潛在的實時時間,明顯優于擴散偽時間。 與偽時間方法相反,潛在時間基于轉錄動力學,并在內部解釋運動的速度和方向。 因此,scVelo 的潛伏時間產生忠實的基因表達時間過程,以描繪動態過程并提取基因級聯。
此外,與普遍潛伏時間的耦合使我們能夠確定高達global基因共享尺度參數的動力學速率。 使用發育過程的整體時間尺度作為先驗信息,最終可以確定動力學速率的絕對值.
Identifying reaction rates in transient cell populations.
為了驗證這兩種模型對模擬剪接動力學中不同參數的敏感性,按照泊松定律為每個反應速率和時間事件隨機采樣了 2,000 個對數正態分布參數。 處于轉錄狀態的總時間在 2 到 10 小時之間變化。
隨著transcriptional induction時間的減少,由穩態模型推斷的比率會產生系統誤差,因此 mRNA 水平不太可能達到穩態平衡水平。 相比之下,動力學模型產生的誤差始終較小,并且對induction duration的可變性完全不敏感。 此外,當使用動力學模型時,真實和推斷穩態比率之間的 Pearson 相關性從 0.71 增加到 0.97。 將 20 小時拼接動力學的整體時間尺度作為先驗信息,動力學模型可靠地恢復了模擬拼接動力學的真實參數,實現了 0.85 及更高的相關性
Resolving the heterogeneous population kinetics in dentate gyrus development.
為了測試 scVelo 的速度估計是否允許識別更復雜的種群動力學,分析考慮了來自發育中的小鼠齒狀回的 scRNA-seq 實驗,該實驗包括兩個時間點(P12 和 P35),使用基于液滴的 scRNA-seq(10x Genomics Chromium Single 細胞試劑盒 V1)。 最初的出版物旨在闡明發育和成人齒狀回神經發生之間的關系。 盡管他們將瞬時中間狀態與成神經細胞階段和成熟顆粒細胞聯系起來,但無法最終確定放射狀膠質細胞樣細胞的定型。
在基本預處理之后,應用穩態模型和動力學模型,并在基于統一流形近似和投影 (UMAP) 的數據嵌入中使用流線圖顯示矢量場
- 注:Velocities derived from the dynamical model for dentate gyrus neurogenesis19 are projected into a UMAP-based embedding. The main gene-averaged flow visualized by velocity streamlines corresponds to the granule lineage, in which neuroblasts develop into granule cells. The remaining populations form distinct cell types that are either differentiated, for example CR cells, or cell types that form sublineages, for example the GABA and oligodendrocyte lineages (OPC to OL). When zooming into the cell types to examine single-cell velocities, fundamental differences between the velocities derived from the steady-state and dynamical model become apparent. Only the dynamical model identifies CR cells to be terminal by assigning no velocity and indicates that OPCs indeed differentiate into OLs. By contrast, the steady-state model displays a high velocity in CR cells and points OPCs away from OLs. Overall, the dynamical model yields a more coherent velocity vector field as illustrated by the consistency scores (in the top-right corner, defined for each cell as the correlation of its velocity with the velocities of neighboring cells).
主要結構是顆粒細胞譜系,其中成神經細胞發育成顆粒細胞。 同時,剩余的群體形成完全分化的不同細胞類型(例如,Cajal-Retzius (CR) 細胞)或形成亞系的細胞類型(例如,GABA 細胞)。 兩個實驗時間點和實驗分析表明細胞類型是仍在過渡中還是已經結束,兩者都支持整體速度推斷的方向性。 值得注意的是,來自兩種模型的速度解決了先前關于徑向膠質細胞樣細胞的命運選擇有利于星形膠質細胞而不是神經源性中間祖細胞的模棱兩可的證據。
雖然兩種模型都捕獲了成熟顆粒細胞的主要譜系,但單細胞velocyto說明了亞譜系和subcluster的顯著差異。因此,只有 scVelo 才能正確識別分化為髓鞘少突膠質細胞 (OL) 和 CR 細胞的少突膠質細胞前體細胞 (OPC) 作為終端。穩態模型錯誤地將high velocities分配給 CR 細胞,這可以追溯到基因解析velocyto。使用 ,穩態模型中不協調的 CR 速度變得明顯。剪接動態,特別是
很好地說明,清楚地表明 CR 群體是終端。此外,表達模式沒有顯示 CR 群體內任何進一步成熟的證據。然而,由于穩態模型將速度確定為與針對整個群體計算的穩態的偏差,因此該模型傾向于將高速分配給離群細胞,例如 CR 群體。動力學模型將 CR 細胞分配到穩定狀態的可能性很高,因為它不能確信地與任何瞬態相關聯。
- 注:Gene-resolved velocities allow further interpreting the inferred directionality on the cellular level. For instance, Tmsb10 is the major contributor to the gene-averaged flow that describes neuroblasts as differentiating into granule cells. With Fam155a, the incongruous CR velocities from the steady-state model become evident. By reducing velocity estimation to steady-state deviations, this model is biased to assign high velocities to outlier cells, such as the CR population. In contrast, the dynamical model assigns CR cells to a steady state with high likelihoods, as they are not well explained by the overall kinetics and cannot be confidently linked to the transient induction state.
是推斷動態的主要貢獻者,并說明了另一個根本區別。 從動力學模型導出的速度在相鄰細胞的velocyto之間比從穩態模型導出的速度更一致,這導致速度矢量場的整體相干性更高.
穩態模型和動力學模型都在成熟的顆粒細胞隔室中產生額外的動態流動,預計這是最終的,可能值得進行實驗跟進。 進一步值得注意的是,即使mossy細胞位于神經母細胞旁邊,但速度推斷的細胞間轉換概率并未顯示兩個種群之間的任何可能的轉換,因此表明mossy細胞形成了自己的譜系。
Determining dynamical genes beyond differential expression testing.
scVelo 計算每個基因和細胞在模型最佳潛伏時間和轉錄狀態下的可能性,解釋了學習的拼接/未拼接相位軌跡對細胞的描述程度。 聚合細胞以獲得整體基因可能性,根據基因的擬合優度對基因進行排名。 能夠識別表現出明顯動態行為的基因,這使它們成為種群中主要過程的重要驅動因素的候選者
- 注:The dynamical model allows to systematically identify putative driver genes as genes characterized by high likelihoods. Whereas genes selected by high likelihoods (upper row) display pronounced dynamic behavior, expression of low-likelihood genes (lower row) is governed by noise or nonexisting transient states. nIPC, neurogenic intermediate progenitor cell.
排名最高的基因顯示出剪接動力學的明確指示,而排名低的基因的表達受噪聲或不存在的瞬態控制。此外,部分基因可能性——即為細胞subset計算的可能性——能夠識別特定過渡階段、分支區域、特定細胞類型或循環subcluster的潛在驅動因素。據報道,許多排名靠前的基因在神經發生中發揮關鍵作用(例如 Grin2b、Map1b 和 Dlg2),而其中一些基因與海馬回路中的 CA1 區域相連(例如,Tmsb10 和 Hn1 )。 Ppp3ca 是可能性最高的基因,主要對速度矢量場有貢獻,它被提升到顆粒細胞。通過將 Ppp3ca 活性的降低與阿爾茨海默病中的 tau 蛋白病變聯系起來,已經證明了它的重要作用。通過表明排除最高似然排名的基因會導致動力學的不可重構性,我們在計算上表明推斷的方向性主要受這些驅動基因控制。
Delineating cycling progenitors, commitment and fate transitions in endocrinogenesis.
接下來,展示了 scVelo 描繪小鼠胰腺內分泌發育瞬態譜系的能力,以及從 E15.5 采樣的轉錄組譜。 內分泌細胞來源于位于胰腺上皮細胞的內分泌祖細胞,以轉錄因子 Ngn3 的瞬時表達為標志。 內分泌承諾在四種主要命運中終止:glucagon-producing α-cells, insulin-producing β-cells, somatostatin-producing δ-cells and ghrelin-producing ∈-cells。盡管在之前的工作中 RNA velocyto闡明了內分泌譜系中的定向流動,但無法清楚地描繪內分泌命運,并且出現了不協調的subpopulation流動。
與穩態模型相比,我們展示了從動態模型中獲得的對發展過程的額外細粒度見解。 首先,scVelo 準確描繪了導管細胞和內分泌祖細胞的循環群體,通過細胞周期評分(相位標記基因平均表達水平的標準化評分)和先前的分析在生物學上得到證實
- 注:Velocities derived from the dynamical model for pancreatic endocrinogenesis are visualized as streamlines in a UMAP-based embedding. The dynamical model accurately delineates the cycling population of endocrine progenitors, their lineage commitment, cell cycle exit and endocrine differentiation. Inferred S and G2M phases based on cell cycle scores affirms the cell cycle identified by the dynamical model。
此外,scVelo 闡明了譜系定型、細胞周期退出和內分泌細胞分化的細胞狀態。 相比之下,穩態模型不捕獲細胞周期,并在后期內分泌階段產生不協調的回流。例如,錯誤地似乎在去分化的 α 細胞可以追溯到錯誤的狀態識別——例如,在 Cpe 中將部分 α 細胞分配到誘導和抑制階段
圖片.png - 注:b,The steady-state model does not capture the cycle and yields incongruous backflows directed against the lineage in later endocrine stages. c, Single-gene velocities illustrate the limitations of the steady-state model. Incongruous backflows in α-cells can be traced back to false state identifications—for example, in Cpe it assigns α-cells in parts to both induction and repression phases.
最近的幾項研究報告了 scVelo 推斷的動態,這些研究闡明了沿譜系階段的時間分辨程序。 例如,譜系追蹤分析顯示內分泌細胞是通過 Fev+ 內分泌細胞的中間階段從 Ngn3+ 前體衍生而來的。
Relating cell fates and disentangling dynamical regimes through latent time.
分析推斷出一個代表細胞internal clock的通用基因共享潛伏時間。 與基于相似性的擴散偽時間相比,這種潛在時間是對實時的更忠實的重建
比較了內分泌細胞命運chronology中的偽時間和潛伏時間。 實時地,α 細胞比 β 細胞(E12.5-E15.5)更早(在 E12.5 之前)產生。 此排序由潛在時間而非偽時間捕獲。
此外,推斷出的 α 細胞velocyto低于 β 細胞中的強定向流動,這再次表明 α 細胞已經在較早階段產生。 此外,推斷的基因特異性轉換時間點表明轉錄變化區域。 從一種轉錄狀態轉變為另一種轉錄狀態的已識別基因的數量——例如,從誘導到抑制——產生了lineage commitment、過渡狀態和分支點的區域。
在這些區域內,推定的驅動基因可以通過它們的可能性來識別,其中排名靠前的基因與hormone processing(例如,Cpe 和 Pcsk2)和分泌(Abcc8)相關。 它們的轉錄活性通過沿潛伏時間解析的基因表達動態顯示。
Extending the model to account for stochasticity in gene expression.
基因表達的部分隨機性已通過系統生物學中的各種建模方法得到解決。 scVelo 基于似然的方法的靈活性能夠擴展確定性常微分方程 (ODE) 模型,通過將轉錄、剪接和降解視為概率事件來解釋隨機性。為簡單起見,演示了如何在穩態模型中實現這一點。由此產生的馬爾可夫跳躍過程通常由矩方程近似,可以在所考慮的線性 ODE 系統中以封閉形式求解。通過包括二階矩,我們不僅利用了未剪接與剪接 mRNA 水平的平衡,而且還利用了它們的協變。隨機穩態模型能夠比確定性穩態模型更大程度地捕獲完整動力學模型的結果,這表明隨機性增加了有價值的信息。例如,隨機模型解決了顆粒、星形膠質細胞和 GABA 成熟的齒狀回中的亞譜系。在胰腺內分泌發生中,它能夠在很大程度上解決循環祖細胞和內分泌譜系承諾,但也像確定性模型一樣在 α 細胞中產生回流。總體而言,隨機模型顯示出比確定性模型更高的一致性,同時在計算時間上保持同樣高效。隨機動力學模型的研究留待未來工作。
Accounting for different kinetic regimes and insufficiently observed kinetics.
一個重要的問題是處理代表多個譜系和過程的系統,其中基因可能在亞群中顯示不同的動力學機制。 不同的細胞狀態和譜系通常由基因調控網絡中的不同變化控制,因此可能表現出不同的剪接動力學。 這產生了在相空間中顯示多個軌跡的基因。 為了解決這個問題,我們對微分動力學進行似然比測試,以檢測顯示出不能由整體動力學的單一模型很好解釋的動力學行為的cluster。 將細胞類型聚類到它們不同的動力學機制中,然后我們就可以分別擬合每個機制。
另一個困難涉及觀察不到的剪接動力學。例如,可能在過程的最后只檢測到整體動態的一小部分。這在未拼接到拼接的相圖中表現為一條直線,而不是一條曲線。以這種方式觀察局部動力學會導致穩態和隨機模型錯誤地擬合這條線并錯誤地分配正velocyto和負velocyto。在確定是否應該適合上調或下調時,缺乏觀察到的曲率也挑戰了動力學模型。這種模糊性可以在兩個應用場景中觀察到,其中只公開了一小部分動力學:(1) 基因僅在觀察過程的一個小窗口中處于活動狀態,或 (2) 數據中觀察到的時間范圍僅涵蓋底層動態過程的一小部分時間框架。前一種情況發生在基因僅在發育過程的最后上調或在發育過程的最開始下調時。后一種情況可能發生在動態過程以快速或同步方式發生時,這樣在 scRNA-seq 數據集中捕獲的快照幾乎不能恢復完整的動態。在這里,樣本群體的整體發展時間尺度可能遠短于動力學的潛在持續時間。分析通過使用“根先驗”擴展動態模型來解決這個問題。該先驗既可以從具有足夠信息以揭示過程根源的基因內部獲得,也可以從先驗知識中獲得,例如第一個實驗時間點或已知的祖細胞群 。
為此,建議用戶不要將生物學結論限制在預測速度上,而是通過相圖檢查單個基因動態,以了解特定基因如何支持推斷的方向。 因此,動態模型極大地促進了尋找最相關的基因。 我們還鼓勵用戶挑戰基本假設,特別是測試差分動力學、未充分觀察的動力學和時間尺度不匹配。
Tenfold speedup for the steady-state model and large-scale applicability.
動態、隨機和穩態模型在 scVelo 中可用作強大且可擴展的實現 (https://scvelo.org)。 舉例來說,在具有 25,919 個轉錄組譜的胰腺發育過程中,scVelo 運行穩態和隨機模型的完整管道,從預處理數據到速度估計,再到在不到 1 分鐘的時間內將數據投影到任何嵌入中。這是通過與 scanpy 集成的內存高效、可擴展和并行化的管道,通過利用高效的最近鄰搜索、分析封閉形式解決方案、稀疏實現和矢量化來獲得的。因此,scVelo 管道比原始實現(velocy)實現了十倍以上的加速。完整的剪接動力學,包括動力學速率參數、潛伏時間和速度,是在 35,000 個profiles中的 1,000 個基因的 20 分鐘的更長但可行的運行時間中推斷出來的。由于它隨著細胞和基因的數量在接近線性的時間內擴展,它的運行時間被 velocy 的二次運行時間超過了在 35,000 和更高的大細胞數量上。對于大量細胞,內存效率也成為一個關鍵方面。在具有 3.7 GHz 和 64 GB RAM 的 Intel Core i7 CPU 上,velocyto 無法處理超過 40,000 個細胞,而 scVelo 可擴展到超過 300,000 個細胞。值得注意的是,隨機穩態模型以封閉形式求解并保持計算效率。它用作效率和準確性之間的權衡,建議在運行時特別重要時使用。
Discussion
scVelo 無需假設存在穩態或跨基因的共同剪接率即可估計velocyto。它保持了恒定的基因特異性剪接和降解速率以及兩個分別用于誘導和抑制的轉錄速率的較弱假設。這些假設在實踐中可能會被違反,并且可以通過將 scVelo 擴展到更復雜的法規來解決。在基因水平上,全長 scRNA-seq protocol,如 Smart-seq2,允許考慮基因結構、可變剪接和狀態相關的降解率。這些可以通過調整 ODE 模型并入 scVelo 基于似然的推理中。特別是,轉錄組尺度的空間單細胞 RNA 分析可能提供有關解決基因調控空間依賴性所需的相對細胞位置的額外信息。空間坐標和實驗時間也可能被用作額外的約束來擴展潛伏時間的概念——例如,捕捉細胞周期的進展。可以在穩態之外利用隨機可變性,這被稱為“傾聽噪音”并被證明可以提高參數的可識別性。已在穩態公式中提出將動力學模型擴展到蛋白質翻譯,并且同樣可以包含在動力學模型中。代謝標記,例如使用單細胞 SLAM-seq,可以量化總 RNA 水平以及新轉錄的 RNA。這種額外的reads可以很容易地包含在動態模型中,將不同的標記長度作為額外的先驗。進一步的擴展是將單基因動力學模型結合起來制定調節motifs,這可以通過利用最近的參數推理技術進行可擴展的估計和模型選擇來推斷。在 scVelo 的下游,現有的軌跡推斷方法可以通過穩健地整合速度以更好地模擬細胞命運決策來擴展到通知方向性。因此,has made a first suggestion for inferring directed abstracted representations of trajectories through RNA velocity。此外,scVelo 的潛在時間和速度可以與表達譜一起使用,共同學習更好的潛在空間表示。
除了軌跡的識別和單個基因的動力學之外,通路的動態激活也很重要。 通過將 scVelo 與富集技術相結合,可以系統地推斷激活的通路,而不依賴于聚類和差異表達分析,類似于我們如何證明動態調節基因的推斷。 動態通路和轉錄因子的識別立即導致了對細胞狀態轉變的貢獻的可測試假設。 scVelo 適用于表征瞬態populations,使其成為研究細胞對擾動的反應的有希望的候選者,擾動通常表現出劇烈的轉換行為。 特別是,scVelo 可以幫助從機制上理解最近對此類響應建模的機器學習方法,并指出將它們擴展到結合剪接動力學的方法。
In the meantime, scVelo is continuously advanced by the community, bringing efficiency enhancements to the RNA velocity workflow. It has, for instance, contributed to the detailed study of dynamic processes in human lung regeneration and is expected to facilitate the study of lineage decisions and gene regulation, particularly in humans.
Method
示例代碼的話大家可以參考我的文章10X單細胞(10X空間轉錄組)RNA速率分析之scVelo。
生活很好,有你更好