前情回顧:
單細胞時代 || 細胞身份概念的演變
單細胞時代 || 從眾病之王到希望之光
單細胞時代 || 宿主-微生物組相互作用
Network modeling of single-cell omics data: challenges, opportunities, and progresses
這不是最好的時代,也不是最壞的時代,這里是單細胞時代。靈活的單細胞系統,高效的組織解離液,開源的數據分析工具,端到端的單細胞解決方案是未來發展的趨勢。這里最主要的是開放靈活的單細胞系統,有了這個系統我們就可以自主地設計反應體系,來從不同緯度捕獲單個細胞的信息。
單細胞多組學技術正在以前所未有的速度促進方法的進步和生物學發現?;蛘{控網絡建模已被用于闡明生物過程和背后的復雜分子相互作用,但在單細胞組學數據建模中的應用遇到了獨特的挑戰和機遇。在這篇綜述中,我們討論了這些挑戰和機遇,并提供了網絡建模方法的最新發展概況,這些方法設計用于描述
- 動態網絡
- 細胞內網絡
- 細胞間交互或通信網絡
在數據科學中,我們主要目標是元素的對象和屬性及其之間的關系。在單細胞數據科學中,上游是在描述元素,如細胞的特性或基因的表達量,下游往往是描述細胞之間或基因之間的關系。網絡是解析關系的有利工具。
網絡建模長期以來被用作理解和解釋復雜生物系統的強大工具,網絡本身既是計算框架又是主要的數據類型。生物系統網絡描述為節點和邊,節點代表生物實體如基因、蛋白質、代謝物,表型特征,細胞,環境暴露,甚至腸道細菌;邊代表如regulator-effector連接節點之間的關系,統計相關性,物理結合,酶或代謝反應(圖1)。
隨著生物數據的數量和類型持續以指數速度增長,生物網絡的數量和類型也在增長,包括蛋白質-蛋白質相互作用網絡、代謝網絡、遺傳相互作用網絡、基因/轉錄調節網絡(GRNs)、細胞信號網絡。雖然不同的網絡模型根據其基本假設具有固有的優勢和局限性,但它們都具有圖形化模型的共同特征,即描述生物系統中的信息流,以幫助理解和解釋基本的生物過程。
在過去的幾十年里,網絡建模被廣泛應用于幫助理解關鍵的生物過程和健康和疾病的調節。特別是,人類生理和病理生理學的巨大復雜性要求在系統水平上理解生物分子如何在單個細胞和組織內相互作用,細胞和組織之間如何相互作用以維持體內平衡,以及這些相互作用的干擾如何導致疾病。omnigenic disease模型指出,網絡中所有基因的相互作用都可能導致復雜疾病,該模型正日益被人們所認可和接受。這些概念框架完全符合網絡生物學,因此,在生物學的所有領域中,網絡建模方法的使用越來越多也就不足為奇了。
例如,許多遺傳變異可以影響疾病,每一種變異都通過很小的影響使生物學解釋變得困難。這些復雜的遺傳效應可以通過它們在轉錄、信號網絡和生物途徑中的關系來更好地理解。我們的團隊和其他人已經利用網絡模型來解釋復雜疾病的遺傳原因。類似地,網絡可以用來了解與各種環境引起的疾病有關的分子級聯。例如,Chella Krishnan等人通過整合組織特異性GRNs的遺傳關聯,發現與非酒精性脂肪肝相關的大量遺傳變異影響多種生物途徑,包括脂質代謝、免疫系統、細胞周期、轉錄調節、胰島素信號、Notch信號和氧化磷酸化,這些途徑在肝臟和脂肪組織的GRNs中相互作用。
基于網絡拓撲結構,他們確定了疾病通路和亞網絡中心參與線粒體功能的關鍵調節因子。在另一項研究中,利用組織特異性GRNs對心血管疾病和2型糖尿病的遺傳風險進行網絡建模,揭示了共享的和疾病特異性的網絡和調節因子。格林等建造144組織特異性網絡和使用這些網絡來預測和理解lineage-specific IL1B刺激的反應。
雖然基于網絡的方法促進了我們對復雜疾病的理解,但需要注意的是,大多數網絡方法和應用主要依賴于從bulk組織中獲得的組學數據。在組織水平上,已經開發了許多用于網絡建模的方法和算法,主要關注于預測組織內和組織間的GRNs,并具有合理的準確性。然而,肝臟的非實質細胞等組織是由包括庫普弗細胞、竇狀內皮細胞和肝細胞衛星細胞在內的異質細胞群組成的,它們都具有與獨特的基因調控譜相關的獨特功能。考慮到組織的異質性,組織網絡主要代表了所有細胞群的平均活動,這些細胞群可以由最豐富的細胞類型所控制。因此,組織網絡無法捕捉單個細胞群的獨特行為,以及細胞如何相互作用來執行更高層次的組織功能。
最近的高通量單細胞組學技術的爆炸帶來了令人興奮的可能性,包括但不限于動力模型,內部和細胞間的基因網絡,以闡明背后的過程,細胞發育,功能狀態和細胞-細胞通訊,而這些不可能在bulk水平獲得。這些單細胞組學技術給了我們前所未有的能力以檢查轉錄,蛋白質和表觀基因組的概況在單細胞解決,在調節和功能關系的生物分子在單個細胞或細胞類型以及細胞群之間。在理論上,類似的框架和方法已經被用于組織網絡建模,可以擴展到單細胞數據,以揭示調控細胞內部和細胞之間的功能的調節機制。然而,正如Chen和Mar在他們最近的研究中所指出的,bulk組織模型可能不太適合克服單細胞數據帶來的獨特挑戰。
在此,我們將討論為bulk組織組學數據開發的現有網絡建模方法,使用單細胞組學數據進行網絡建模所面臨的獨特挑戰,利用單細胞數據建立網絡模型的方法的最新發展及其關鍵的底層算法優缺點。最后,我們討論了有待克服的問題以及我們認為該領域將在哪些方面實現基于單細胞組學數據的更高效、更準確的基因調控網絡建模。
bulk組織數據GRN建模方法
針對bulk組織數據開發和優化的常見GRN方法通常基于相關、回歸、常微分方程(ode)、互信息、高斯圖形模型和貝葉斯方法。例如:
- 基于相關關系的加權基因共表達網絡分析(WGCNA)是最常用的方法。WGCNA用于發現高度相關的基因簇(或模塊),這些基因通常代表參與類似生物途徑或功能的受到嚴格調控的基因。雖然基于共表達的方法計算效率高,且較少依賴于假設,但這些方法主要對功能相似或調控相似的基因進行分組,但不能推斷出方向性或直接的調控關系,需要整合其他信息以促進可解釋性。
- 基于回歸的方法,如GENIE3,通過基于回歸模型確定每個網絡基因的最具預測性的基因子集來解析網絡。這些方法適用于線性級聯,但不適用于前饋回路。
- 對于基于相互信息的方法,如ARACNE和CLR,網絡結構是由基因對之間的依賴程度決定的。這些相互信息的網絡方法可以推斷方向性和潛在的因果關系,可以更準確地預測前饋回路,但線性級聯的性能有限。
- 貝葉斯網絡(BN)建模方法提供了靈活的框架來合并和整合多組數據作為先驗信息,以推斷因果性和方向性基因-基因相互作用。BN編碼基因之間的條件依賴性,其中每個基因由其父節點的值決定。為了提高精確度,BNs通過可能圖的多元空間進行搜索,這樣做的代價是較高的計算成本,并且不能保證可以檢測到最優拓撲。
常用的GRN推理算法各有優缺點,多方法的集成可以彌補每種方法固有的缺點,更好地解釋數據。需要注意的是,這些方法是針對bulk組織級數據進行優化的,這些數據通常符合標準數據分布,并且幾乎沒有缺失值。
單細胞技術和數據結構
利用最近開發的單細胞技術,我們現在能夠檢測轉錄(DropSeq , inDrop, 10X,SmartSeq v4,Marsseq , Seq-Well , SPLiT-seq , sci-RNA-seq),蛋白質(CITE-seq),以及表觀基因組如開放染色質(scacc -seq)和甲基化景觀。這些單細胞技術帶來了令人興奮的可能性,以前所未有的分辨率和規模探索生物學。單細胞RNA測序(scRNAseq)是目前最流行和廣泛應用的高通量檢測單細胞的技術。通常,這些高通量單細胞轉錄組技術是基于從3 '端計數轉錄片段,然后與參考基因組對齊。由此產生的數據結構集合了每個單細胞的基因計數,稱為數字基因表達譜(digital gene expression ,DGE)。
對于其他數據類型,相似的細胞標記(如蛋白質,染色質位置,和甲基化位點)矩陣形成主要的數據結構。雖然已經將單細胞表觀基因組投射到單細胞轉錄組上,但就我們所知,整合多組數據用于GRN建模還沒有嘗試過,這是方法學未來發展的方向。多組數據可以以多種方式合并,包括構建一個跨組學層外推的具有邊緣置信度的單一網絡,以及從單個組學層構建多個網絡,通過關聯關系或已知功能相關性在各層之間進行交互。例如,位于特定基因啟動子或增強子區域的開放染色質將允許在scac -seq和scRNAseq層之間繪制有向邊;蛋白質組數據可以幫助推斷蛋白質之間的相互作用,并提供有關調控蛋白質的信息,如轉錄因子(TFs)和調控轉錄組和表觀基因組的表觀基因組調控。在這篇綜述中,我們將重點關注scRNAseq數據,因為它們是GRN建模中研究的最豐富的單細胞數據類型。
現有GRN方法在單細胞網絡建模中的性能
最近,Chen和Mar在利用經驗和模擬單細胞數據進行網絡構建時,評估了五種常用的用于bulk組織數據的廣義網絡重建方法的能力。在他們的分析中使用的方法包括部分相關、BN、GENIE3、ARACNE和CLR。利用精確召回和接受者工作特性曲線( precision-recall and receiver operating characteristic curves )來評估每種方法是否能準確再現參考網絡,發現在模擬和實驗單細胞數據集中,所有方法都沒有明顯優于隨機生成方法。此外,在網絡預測中,不同方法之間也只存在有限的重疊。這表明,現有的基于單細胞數據的網絡建設方法缺乏通用性和適用性。然而,在解釋這種比較結果時需要謹慎,因為使用的金標準參考網絡的有效性和質量評價指標會顯著影響比較結果。
scRNAseq數據網絡建模中特有挑戰與機遇
現有方法的潛在性能不足可能是由于與數據稀疏性、分布以及數據維數和容量增加相關的獨特挑戰造成的。
首先,對于使用最近的高通量平臺的scRNAseq來說,由于單細胞中存在的mRNA數量非常少,以及目前技術限制導致DGE矩陣中的大多數條目都是零,這導致矩陣非常稀疏,使得為bulk組織數據設計的方法的直接擴展非常困難。重要的是,盡管這些零可能是個體細胞中隨機基因表達的結果(生物學上的零),但它們并不一定意味著mRNA分子的缺失,而是對中至低表達基因的低技術敏感性的結果,稱為缺失【著名的雙零問題】。值得注意的是,基于讀取計數的scRNAseq是零膨脹的,而包含獨特分子標識符(UMI)計數的scRNAseq被發現具有“非零膨脹”特征,導致與基于讀取計數的技術相比,其分布不同。reads計數和基于uml的scRNAseq中底層數據分布的差異要求在未來實現新方法時考慮這些不同技術的數據特征。
在試圖為缺失值賦值時,許多單細胞歸算方法,例如MAGIC、scImpute、DrImpute、SAVER、BISCUIT、ScUnif、PBLR、deepImpute等得到了開發和應用。但是,這些方法的性能差異很大。在基準測試中,scImpute和DrImpute在模擬數據上成功,但在面對非共線經驗數據時失敗,而SAVER和BISCUIT只能持續地將dropouts歸為接近零的值。此外,用于測量性能的主要指標(例如rand指數或相互信息)對這些方法定義細胞集群的能力進行基準測試;目前還不清楚這些估算值如何影響網絡結構。由于對這些數值插入方法的結果沒有一致的意見和實驗驗證,在使用數值插入數據進行網絡構建時需要謹慎。簡單和直觀的方法由漢等使用相同的細胞亞群的細胞類型,平均每個基因在細胞的非零值從每個子集獲得一個超細胞(supercell)的基因表達矩陣,與零值和更少的膨脹可能更多的生物有關。值得注意的是,這種做法會減少細胞數量并犧牲統計能力。
第二個挑戰是與細胞數據中的dropout 問題相關的非標準數據分布模式。大量的缺失值顯著地使數據分布從單峰分布(如高斯分布)向多模態分布傾斜,這違反了大多數經典GRN建模方法的統計假設。對于單細胞網絡的構建,需要仔細評估數據分布模式和適當的統計方法。有幾種統計方法,如零膨脹因子分析(ZIFA)和ZINB-WaVE(基于零膨脹負二項式的期望變異提取)已經被開發來專門建模零膨脹的單細胞數據分布。ZIFA是一種降維方法,其假設是低表達的基因比高表達的基因更有可能導致缺失。ZIFA擴展了因子分析,在非零均值表達式的基礎上,將dropout率模型作為指數衰減。然而,ZIFA也有限制,因為它嚴格地對零測量進行建模,不能解釋接近零的值。此外,ZIFA還有一個底層的線性轉換框架;然而,非線性降維技術,如t-SNE和UMAP已經被證明在解釋單細胞數據中是有用的,所以零膨脹模型的擴展到這些非線性方法可能是有用的。ZINB-WaVE是另一種降維技術,它獨特地模擬了scRNAseq數據的計數性質,并使用樣本級截獲(sample-level intercept)和靈活的基因級和樣本級協變合并標準化,以解決批次效應和序列組成效應(如基因長度或GC內容)。為了解決數據的零膨脹和過度分散問題,ZINB-WaVE修改了一個不適合數據的標準負二項分布,用一個術語給出觀察到0的概率,而不是實際的計數。雖然ZINB-WaVE主要被證明是單細胞數據的降維技術,但作者認為低維表示可以用于下游分析,如聚類或偽時間。
最近,Townes等發現多項式方法在特征選擇和降維方面優于現有的其他方法??紤]這些替代的統計方法在GRN推斷可能被證明是有用的。應該指出的是,這些統計方法是為讀計數數據開發的,可能不適合基于UMI的單細胞數據集,因為它們有不同的底層數據分布,而這些數據分布不是零膨脹的。
第三,該領域必須掌握校正混雜因素的能力,并將從多個實驗獲得的數據推斷為一個共同的圖譜。挑戰出現在各批次數據由變量構成和研究,甚至批次還包含相同的細胞類型,個別細胞類型的細胞數量和轉錄狀態由于程序上可以有很大的不同噪聲(組織分離、排序和試劑批次),scRNAseq平臺(例如10×與Dropseq),和試劑版本(10×的2和3版本)。就像在bulk組織設置中使用批次校正來調整混雜因素一樣,不同實驗甚至實驗室產生的數據集的集成是重要的,因為它增強了統計強度和重現性。最初用于bulk組織校正的方法,如limma和ComBat,已應用于單細胞數據的批量校正;而,已有研究表明,將這些為bulk數據開發的方法同時應用于模擬和真實單細胞數據存在局限性。最近,該領域取得了重大進展,產生了專門用于單細胞批次校正的方法,如典型相關分析(CCA)和mnnCorrect,以及基于帶標記的參考數據集的細胞類型識別方法,如scmap和singleR。然而,在對單細胞數據應用批次修正方法后,謹慎地進行下游分析(如GRN構建)是很重要的,而且有必要了解底層算法和假設。
像CCA和mnnCorrect這樣的方法只利用跨數據集共享的高度可變的基因進行集成,并返回一個校正后的基因表達矩陣,其中只包含用于集成的可變基因。這些基因主要定義細胞類型特異性標記,而CCA的過程固有地引入了基因之間的依賴關系,并違反了用于下游分析(如差異表達)的統計測試的假設,因此CCA的作者警告說,不要使用CCA進行跨數據集的保守細胞類型鑒定。一般來說,為批次數據開發的批次校正方法在批次校正中執行得更差,而為單細胞數據開發的方法在從不同批次聚集細胞類型方面更準確,但可能不能擴展到下游分析。因此,有必要開發能兩者兼顧的方法。
最后,與通常由試驗組id、樣本id和特征測量組成的bulk組織數據相比,單細胞數據通過從每個樣本中添加數十種細胞類型和數千個細胞,也呈現出維數和數據量的增加。這種維數和數據量的增加,不僅使網絡建模更加復雜,計算成本更高,而且從生物學角度帶來了現有方法無法承受的新可能性。除了基因在網絡中是如何組織和相互作用這一典型問題之外,人們還可以提出許多新的令人激動的問題。例如:
- 什么定義了細胞類型?
- 基因在每種細胞類型中是如何組織的?
- 細胞類型之間的網絡架構有何不同?
- 細胞之間的關系是什么?
- 它們來自相同的還是不同的血統?
- 這些血統是如何進化的?
- 同一細胞類型是否有不同的狀態?
- 什么基因調控通路決定細胞狀態?
- 細胞如何從一種狀態過渡到另一種狀態?
- 哪些細胞相互溝通以確定更高層次的功能,以及它們通過哪些基因和途徑進行溝通?
許多這些新問題在bulk時代并沒有被考慮或容易解決。除了提供回答這些重要問題的機會外,在每個樣本中測量的 細胞中細胞間的差異性或異質性也提供了足夠的信息來構建樣本內或特定于輪廓的網絡。這樣的網絡描述單個生物樣本的GRN,這在bulk時代是不可能的。換句話說,利用大細胞數維的能力允許為每個樣本構建基于其組成細胞剖面的grn,這可以用于樣本間的共識網絡,以提高準確性。
最近的scRNAseq GRN建模方法
認識到對單細胞數據的新的GRN建模方法的需要,最近開發了許多主要基于scRNAseq數據的方法。我們根據基本的生物學問題對這些方法進行分類(動態建模、細胞內網絡和細胞-細胞相互作用網絡。然后是具體的生物學假設(例如TF目標相互作用,配體-受體相互作用)和算法(例如共表達,回歸,ode,貝葉斯和布爾型),如表1所示:
Category | Example methods | Underlying biological assumption | Algorithmic basis | Advantages | Limitations | |
---|---|---|---|---|---|---|
Dynamic network **(extensively reviewed in refs | SCNS | Single-gene changes between cell transition states can inform on gene regulatory relations | Boolean | Does not rely on prior knowledge. Has a web UI. Resulting models are executable and can be used to make predictions | Need data discretization; limit to small numbers of genes; regulatory relations need to follow Boolean rules | |
Dynamic network (extensively reviewed in refs) | SCODE [82] | TF expression dynamics (pseudo-time) and TF regulatory relations (GENEI3) | ODE; Bayesian model selection | Estimate relational expression efficiently using linear regression; reduction of time complexity; fast algorithm | Need dimension reduction first for computing speed and memory feasibility; assumes that all cells are on the same trajectory; optimization is computationally intractable | |
Dynamic network (extensively reviewed in refs) | GRISLI [83] | Variability in scRNAseq data caused by cell cycle, states, etc. allows the inference of pseudo-time associated with each individual cell | ODE | Makes no restrictive assumption on the gene network structure; can consider multiple trajectories; fast algorithm | Has to estimate the velocity of each individual cell using information from neighbors | |
Dynamic network (extensively reviewed in refs) | SINCERITIES [84] | Changes in the expression of a TF will alter the expression of target genes | Ridge regression and partial correlation analysis | Low computational complexity and able to handle large-scale data | Requires scRNAseq data at multiple time points. Restricted to TFs and their targets to infer edges | |
Dynamic network (extensively reviewed in refs) | Scribe [85] | Cell ordering can be improved with time-series or cell velocity estimations | RDI | Outperforms other pseudo-time methods given time-series data. Can be applied to any data type if the data structure is appropriate | Requires time-ordered gene expression profiles or velocity estimation from introns and exons | |
Dynamic network (extensively reviewed in refs) | AR1MA1-VBEM [40] | The cell differentiation process or response to external stimulus reveals the hierarchical structure of the transcriptome | First-order autoregressive moving-average and variational Bayesian expectation-maximization | Weighted interactions between genes along psuedotime. Model used accounts for noisy data | Data are expressed as fold changes between timepoints/conditions or scaled by housekeeping genes | |
Dynamic network (extensively reviewed in refs) | SCINGE [86] | Learned target regulator genes can be used to assign each cell to their progress along a trajectory | Granger causality | Smooths irregular pseudo-times and missing expression values | Near random performance for predicting targets of individual regulators | |
Dynamic network (extensively reviewed in refs) | SoptSC [87] | Similarities between whole transcriptomes of single cells can be used to order them | Cells ordered by minimum paths on weighted cluster-to-cluster graph derived from cell similarity matrix | Includes comprehensive single-cell workflow; leverages information from other parts of the workflow to improve performance | Cannot be run with other tools, have run the full workflow to get pseudo-time inference | |
Within-cell or cell population network | SCENIC [88] | TF target-based regulation | Combining TF regulatory relations (GENIE3) with TF-binding motif analysis | Robust against dropouts, get a TF score for individual cells (no averaging of cells). | Limited to TF-based relations | |
Within-cell or cell population network | Pina et al. [89] | TFs drive lineage commitment | Odds ratio for on/off gene associations and spearmen correlation for expression levels associations | Robust to dropouts | Based on single-cell multiplex qRT-PCR, may be difficult to extend the method to sparse single-cell data (selected 44 genes to test) | |
Within-cell or cell population network | Iacono et al. [90] | Coexpression is regulated by TFs, cofactors, and signaling molecules which can be captured with gene–gene correlations | Pearson correlation using z-score-transformed counts | Can compute correlations at the single-cell level and it is robust to dropouts and noise inherent to single-cell data | Networks are very dense (some have millions of significant edges) | |
Within-cell or cell population network | PIDC [39,91] | Gene regulatory information reflected in dependencies in the expression patterns of genes | Partial information decomposition using gene trios | Compared with correlation, captures more complicated gene dependencies | Networks are influenced by data discretization, choice of mutual information estimator, method developed for sc-qPCR data, may not be extendable to higher throughput and sparser scRNAseq data | |
Within-cell or cell population network | Jackson et al. [92] | Deletion of TFs combined with experimental conditions allows for the inference of gene relationships | MTL to leverage cross-dataset commonalities and incorporate prior knowledge | Does not require sophisticated normalization of single-cell data or imputation. Able to combine multiple conditions/datasets for more accurate inference. TF deletions give strong causal link to affected genes | Requires single-cell data with TF deletions and/or environmental perturbations | |
Within-cell or cell population network | Wang et al. [93] | Gene perturbations allow for inference of causal relationships | Scoring of conditional independence test to identify optimal DAG | Gives causal relationships between genes | Requires interventional data. No loops allowed in DAG | |
Within-cell or cell population network | ACTION [94] | Functional identity of cells is determined by a weak, but specifically expressed set of genes which are mediated by TFs | Kernel-based cell similarity and geometric approach to identify primary functions | Robust to dropout and does not require averaging. Identifies functions unique to cell types | Requires TFs and their targets. Only provides TF-driven networks | |
Within-cell or cell population network | SINCERA [95] | TF target-based regulation | First-order conditional dependence on gene expression to construct a DAG | Key TFs identified using multiple importance metrics | Only considers TFs and their targets. Requires genes/TFs to be DEGs or expressed in >80% of cells | |
Cell–cell communication network | iTALK [96] | Ligand–receptor interactions | Threshold ranked list of genes from two cell types for ligand–receptor pairs | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell). Cannot reveal novel interactions beyond known ligand–receptor knowledge | |
Cell–cell communication network | Zhou et al. [97] | Ligand–receptor interactions | Expression of ligand and corresponding receptor more than three standard deviations greater than the mean | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Kumar et al. [98] | Ligand–receptor interactions | Product of the average expression of ligand and corresponding receptor | Allows for the inference of directionality of interaction. Interaction score gives the strength of interaction (rather than just significance) | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Arneson et al. [99] | Ligand to downstream signaling | Coexpression of ligand genes in source cells with other genes in target cells | Use secreted ligands as a guidance for directional inference between cell populations | Gene expression is summarized to the cell population level and coexpression is at the sample level, requiring large sample sizes | |
Cell–cell communication network | SoptSC [87] | Ligand–receptor interactions | Likelihood estimate of the interaction | Cell–cell communication networkbetween two cells based on expression of the ligand, receptor, and downstream pathway target genes (including expression direction). Consensus signaling network derived from all cells in each cluster | Incorporates target genes of pathways and their directionality. Computes interaction likelihood at the single-cell level and summarizes across all cells in the cluster for higher confidence | Requires curation of ligand–receptor interactions and their downstream pathways |
Cell–cell communication network | scTensor [100] | Ligand–receptor interactions | Tensor decomposition with cell–cell interactions as hypergraphs | Allows L–R pairs to function across multiple cell-type pairs (not restricted to a single-cell-type pair), which is more reflective of underlying biology | Requires curation of ligand–receptor interactions. Averages single cells to the cell-type level |
最直接的算法是共表達,即一個基因與另一個基因相互作用的可能性取決于它們成對相關系數的強度。雖然在計算上易于處理,但這些方法中的大多數不提供方向性,而且可能推斷函數相關性而不是直接調節。更復雜的方法包括ode、布爾網絡和BNs,如前所述,每種方法都有其優點和局限性。
- 布爾網絡要求離散化基因表達值,并應用布爾函數來描述調控相互作用,這可能導致過度簡化。
- 基于ode的方法使用線性、非線性或分段微分方程以連續而不是離散的方式對mRNA含量的動態特性建模。
- BN是一個有向無環圖(DAG),它整合了先驗信息來指導其基因-基因相互作用的預測,本質上是概率性的。
- 最后,信息論度量描述了生物實體之間的統計相關性,包括熵(熵是基于隨機變量的不確定性對信息進行量化的概念)和互信息(互信息是對一個隨機變量的觀察可以告知或減少另一個隨機變量的不確定性)。這種方法產生了更一般的關聯,允許捕獲非線性依賴,并在網絡推理中被普遍使用。
值得注意的是,由于新的方法正在迅速發展,不可能詳盡地記錄所有現有的方法。在這里,我們強調了單細胞GRN建模的廣泛類別,并討論了示例方法來說明這些概念,并注意到它們的優點和潛在的局限性。我們還排除了基于舊的低通量單細胞平臺(如單細胞qPCR)數據開發的方法,這些方法與稀疏高通量的scRNAseq沒有相同的挑戰。
動力學網絡
到目前為止,大多數基于scRNAseq的GRN建模方法被設計用于處理動態細胞狀態轉換(圖1B),因為scRNAseq數據包含來自顯示時間動態的異步細胞種群的信息,允許在擬(偽)時間(pseudo-time)尺度上映射細胞轉換。表達動力學或偽時間估計的常用模型假設細胞變化(即發育、激活和失活)沿著連續曲線或理想化樹進行,每個中間階段都很短,并通過對大量細胞的測序得到。在這些假設下,計算建??梢酝茢嗉毎麆恿W的軌跡,可以根據已知的調控關系,如TF靶標信息、基因表達的相似性、以未成熟和成熟mRNA含量為代表的RNA速度來推導。但是,需要注意的是,在給定快照上同時出現的各種細胞狀態并不代表序列或沿襲信息推斷的實時過程。因此,加入偽時間不一定能改善GRN的構造。
到目前為止,已經開發了超過50種方法用于軌跡推斷來推導偽時間信息,這些方法之前已經被回顧和比較過。偽時間排序為動態GRN建模提供了方向性和交互性信息。這種偽時間信息與上述常用的網絡構造算法如correlation , ODE , Boolean , BN,信息論和其他方法相結合。許多動態GRN方法已經被其他人廣泛地回顧過,我們在這里只討論不同類別中的幾個例子。
- 一種布爾網絡方法,即SCNS,是基于有序細胞之間的單基因變化,細胞被離散到一個開/關的狀態。
- 另一種方法SCODE使用線性ODE(一種假設所有細胞都在同一軌跡上的偽時間估計)和基于TF的框架來建模TF動力學,捕獲基因間的調控關系。
- 在此基礎上,GRISLI最近被開發出來,它使用了與SCODE類似的方法,但考慮了多個細胞軌跡,不采用網絡結構,計算時間更快。GRISLI首先估計每個細胞的速度,然后解決一個稀疏回歸問題,將細胞的基因表達與其速度分布聯系起來,以估計GRN。
- 以信息論為基礎的方法,SINCERITIES,利用Granger因果關系獲取方向性信息,量化每個基因表達在兩個后續(偽)時間點之間的時間變化。通過嶺回歸分析,利用TF表達的變化預測相應基因在下一個時間窗口的變化,通過對每個基因對的表達進行偏相關分析,推斷邊緣方向和符號。SCINGE還對有序單細胞數據使用基于核函數的因果回歸來預測調控因子與靶基因的相互作用,然后對回歸結果進行聚合,對預測的相互作用進行排序。
- 另一種方法是PIPER,它使用局部泊松圖形建模來更有效地捕獲細胞分化過程中的網絡變化,并突出顯示驅動這些變化的關鍵TFs。
- NB推理方法,AR1MA1-VBEM(變分貝葉斯采用),應用一階自回歸移動平均(AR1MA1)模型適合代表觀測時間序列的線性模型的組合數據前面的計算和噪聲項,并使用一個問題的框架,利用變分法來優化網絡模型的邊際似然和后驗分布。
- Scribe是另一種最近發展起來的方法,它使用限制性定向信息(RDI),通過引用相關的時間序列數據或從內含子(指示未成熟RNA)和外顯子讀子中推斷細胞速度來推斷因果grn。作者證明當有真實的時間序列數據時,Scribe優于其他偽時間方法;然而,當測量的時間信息丟失時,所有方法的性能都會受到極大影響。有趣的是,Deshpande等人最近對各種方法進行了比較,發現加入偽時間并不一定會帶來更好的性能,但在某些情況下會損害網絡重建。如前所述,這可能是由于偽時間方法的假設存在問題造成的。
細胞內網絡
第二類方法側重于在不考慮細胞軌跡或動力學的情況下對細胞內群體的grn進行建模。這些方法包括共表達和基于tf的方法、共表達和不依賴tf的方法以及信息論方法(表1和圖1B)。這符合組織基因-基因相互作用GRN建模的基本概念,除了這里為特定細胞群建模的單細胞數據。
與動態網絡建模相似,對細胞內群體建模的最簡單方法是基于共表達。在這里,共表示方法分為兩組:利用TFs形式的先驗信息的方法和不利用TFs形式的方法。對于與tf無關的方法,一個基因與另一個基因相互作用的可能性取決于它們成對相關系數的強度,并考慮了所有可能的基因對。在基于tf的方法中,根據與不同TFs的成對相關系數最強的基因分組到模塊中,或者根據之前的文獻或motif證據分離到潛在的相互作用。定義細胞內grn的一種更復雜的方法是部分信息分解,它可以捕獲非線性的基因依賴性。在這里,由一對基因提供的信息被用來量化所有三組基因中關于第三個基因的獨特的、共享的和協同的信息,從而推斷出一個網絡結構。
幾種基于相關的方法已經被開發出來,用來比較已知或預測的TFs與靶基因或所有基因之間的基因表達模式。例如,
- 通過對共表達基因模塊進行帶有TF結合基序的SCENIC couples基因共表達分析,以識別GRN模塊,預測TF調節因子,并識別假定的TF靶標(稱為調節因子)的單細胞水平活性。這些調節因子的活性可用于群集細胞類型,比較網絡保護,并確定參與疾病的重要細胞狀態和grn。
- 另一種方法是使用完整的分析管道來處理scRNAseq數據。它首先識別每個細胞類型的候選TFs和它們的靶標。然后利用基因表達的一階條件依賴性來確定兩個或一個轉錄因子與目標基因之間的相互作用,并通過整合六個不同節點重要性指標來確定每個GRN中的關鍵轉錄因子。
- 其他的coexpression-based GRN方法,使用一個細胞類型特異的GRN正交化方法構建基于細胞的功能標識的關鍵假設是由一組弱,但具體表達基因介導的一組TFs。
- ACTION將每個細胞描述為高維空間中的一組“細胞函數”,這些函數的數量使用非參數方法確定。使用正交化法確定每種細胞功能所特有的基因,并評估TFs在控制這些細胞功能基因中的作用。細胞內的TF和相關靶基因構成了這個網絡。
Pina等和最近的Iacono等也利用共表達構建了不限于TF目標關系的全局GRNs。前者計算一個細胞類型內所有細胞間的Spearman等級(rank)相關性,以推斷造血過程中的細胞型GRNs,并利用線性轉化表達數據的比值比確定顯著的成對關聯。Iacono等人使用了一種基于皮爾遜相關的方法,該方法首先使用bigSCale轉換表達值,使用概率模型推導出每個基因的z分數,以考慮單細胞數據固有的噪音和變異性。利用z得分的兩兩相關關系來構建grn。z分數的使用增加了顯著的基因對基因的相關性。
為了揭示簡單的相關策略所不能提供的復雜的基因依賴關系,GRN推理方法采用了信息論的技術。具體來說,PIDC使用部分信息分解,在所有其他可能的基因中找到任何一對兩個基因所提供的唯一信息。這種多元信息的方法利用第三個基因之間的依賴關系識別非線性雙基因關系。
細胞通信網絡
一個給定的異質組織的基本功能不僅由組織內不同細胞類型的活動決定,而且由細胞群體之間密切的溝通和協調決定。例如,神經元和星形膠質細胞相互作用以保證大腦的基本功能,免疫細胞與脂肪組織中的脂肪細胞相互作用以調節能量代謝和產熱。因此,細胞-細胞間的通訊是一個關鍵的生物學問題,但由于之前缺乏高通量、高分辨率的單細胞數據而尚未得到全面的解決。單細胞方法同時捕獲多種細胞類型的獨特能力,使得建立細胞-細胞通信網絡模型成為可能。建立這種網絡模型的基本假設是,細胞之間的通信可以通過測量單個細胞群體的分子模式來捕獲。例如,一對相互聯系的細胞可能以協調的方式表達參與特定功能的基因和蛋白質(例如,一個細胞表達配體,另一個細胞表達相應的受體,以觸發信號通路)。
早期對細胞-細胞通信網絡模型的嘗試主要是基于基因共同表達的概念,無論是否考慮配體-受體的相互作用信息。潛在的假設是細胞之間的基因相關模式反映了真實的生物相互作用。在組織-組織相互作用的水平上,已有證據支持這一假設的有效性。例如,腦區域間的基因共表達可以概括出小鼠腦連接體功能衍生的相互作用,5種不同小鼠組織間的基因共表達揭示了介導溝通的新內分泌因子,這些新因子隨后被實驗驗證。
當Han等人基于不同細胞類型的基因表達譜的相似性建立細胞-細胞連接時,共表達方法迅速適用于單細胞數據。然而,這些網絡更有可能反映細胞類型之間的相似性,而不是相互作用或通信。為了修改經典的共表達框架,基于配體和受體的方法已經被提出,它依賴于這樣的假設:細胞間通信的重要部分是通過釋放化學分子從一個細胞結合到另一個細胞的受體。利用這個假設允許基于配體受體的方法來構建可靠的基于生物的定向網絡。然而,這樣做的代價是在固有的稀疏數據模式中嚴重限制了潛在基因的集合。值得注意的是,基于共表達的分析通常使用皮爾遜相關系數,由于零膨脹的性質和獨特的分布模式,皮爾遜相關系數可能不適用于基于讀取的單細胞數據集。在對單細胞數據使用基于共表達的分析時,重要的是要考慮數據轉換和適當的統計。
有幾種方法說明了通過配體-受體相互作用的細胞-細胞通信。
- Zhou等人編制了一份>25000對已知配體受體的清單,以檢測它們在關于4000個黑色素瘤細胞的轉錄組中的變化。為了確定一對細胞是否在交流,配體和相應的受體必須在這兩種細胞中表達超過一定的可調閾值。
- 類似地,Kumar等人關注的是基于約1800文獻的配體-受體對,但采用了不同的評分方案,考慮了各自被測細胞類型中平均受體表達和平均配體表達的產物。
- iTALK是另一種新的基于配體-受體交互的網絡構建方法,它被移植為帶有數據可視化工具的R包。對于每一個細胞類型和iTALK數據庫中的配體對,iTALK標識中的配體-受體對(> 2600對)兩個細胞類型之間通過詢問排名列表基因來源于平均差異表達基因(單一的計算/條件)或(多個時間點/條件)。此外,iTALK還能夠使用元數據(例如,時間點、組和群組)通過識別不同表達的配體-受體對來發現細胞-細胞相互作用的變化。
- 類似地,Smillie等人使用了FANTOM5數據庫中數千篇支持文獻的受體-配體相互作用來識別細胞-細胞相互作用,要求基因是細胞標記基因或差異表達基因來表示細胞間的重要相互作用。
- 在大多數配體-受體方法中,配體-受體對僅限于細胞類型;然而,在scTensor中,Tsuyuzaki等人采用了更靈活的方法,不存在此類限制。在scTensor中,細胞-細胞相互作用被表示為超圖,超圖描述了用張量分解確定的配體-受體對的有向邊。
- Vento-Tormo等人最近提出的一種方法也考慮了分泌分子和細胞表面分子,并使用基于置換的方法來尋找細胞類型之間豐富的配體-受體對。為了實現這一點,作者開發了CellPhoneDB,一個配體-受體相互作用的公共知識庫,由蛋白質-蛋白質相互作用的公共資源管理,其中包括配體和受體的亞基組成,以充分表達它們的相互作用。對于由多個亞基組成的蛋白質,需要表達所有亞基才能推斷出準確的相互作用。
上述方法都只專注于配體-受體對,這依賴于假定的基因,使其局限于一組可通知細胞-細胞通訊的基因對。此前,一種限制較少的建模方法已經被開發出來,該方法基于編碼源組織分泌肽和靶組織中所有基因的共同表達,來解剖組織-組織通信網絡。Arneson等人采用這一概念,在假小鼠和腦外傷小鼠的海馬中構建細胞-細胞通信網絡圖,揭示了腦損傷中廣泛的網絡重新布線。這種方法推斷出細胞之間的聯系,其基礎是假設一個細胞通過分泌信號分子與另一個細胞通訊,這些信號分子與靶細胞上的受體結合,從而觸發靶細胞的下游分子事件。因此,可能在源細胞類型中編碼分泌信號分子(即配體)的基因與受體以及靶細胞類型的下游通路基因之間存在共表達。通過考慮細胞類型之間所有表達基因的模式,其他方法可以將細胞-細胞相互作用的范圍擴展到基于配體-受體的關系之外,盡管對這種方法的生物學解釋不是那么直接。
綜合的方法
wang et al提出了SoptSC,一個統一的框架來進行單細胞分析從基因表達矩陣基本分析工作流(如標準化、集群、降維,并確定細胞標記基因),隨后推斷信息交流網絡和pseudotemporal。SoptSC的關鍵前提是結構化的細胞間相似度矩陣有助于改進網絡推理步驟。相似矩陣也被用于偽時間排序,在加權簇到簇圖中尋找細胞之間的最短路徑。為了推斷細胞-細胞信號網絡,根據配體-受體對的表達和下游通路靶基因的方向來計算兩個細胞間相互作用的可能性估計值。通過總結任意兩種細胞類型的所有細胞之間的信號轉導概率,就可以形成一個集群/細胞類型之間的一致網絡。
基因擾動網絡
上述方法都是利用TF級聯、配體-受體關系等信息流假設,沒有直接的因果信息。含有基因擾動信息的單細胞數據對于提供GRN構建的因果信息極為有用,因為一個基因的靶向擾動是其他基因下游反應的來源或觸發器。Jackson等人提出了利用基因缺失突變體的方法。具體地說,他們匯集了橫跨12種不同基因型(TF缺失)和11種不同條件的72種不同酵母株,生成了38000個細胞的scRNAseq數據。除了表達數據,該方法使用來自TF目標和生物物理參數(如TF活性和mRNA衰減率)的先驗信息,使用多任務學習(MTL)框架構建GRN。這允許在不同的條件和實驗中整合信息,以解釋TF擾動和觀察到的基因表達變化之間的關系。通過直接刪除TFs,作者創建了一個有價值的數據集,可以作為其他單細胞網絡推理方法的有用基準。Wang等人提出了一種推斷因果DAGs的算法。將CRISPR/ cas9介導的基因擾動與單細胞測序相結合,生成高通量的介入基因表達數據。該算法基于貪心SP來限制基于置換的DAG搜索空間,利用貪心干涉等價搜索來評估潛在的網絡分數。為了進一步擴展因果網絡推理的研究,Wang等人引入了一種方法,可以識別從不同數據集推導出的DAGs之間的差異。同一組也表明,軟干預用于Perturb-seq,比如那些導致局部破壞的基因相關性(例如RNAi或CRISPR-mediated基因激活),提供相同數量的因果信息困難的干預(例如CRISPR / Cas9-mediated基因刪除),導致完全中斷,盡管只是輕微擾動。
單細胞GRN建模方法的性能評估
Chen和Mar最近將一些單細胞網絡建模方法,包括SCENIC、SCODE和PIDC,應用于模擬和經驗的單細胞數據集,以評估其捕獲已知網絡交互的能力。他們發現這些方法之間的一致性很低。然而,由于每一種方法都有獨特的假設,并且可能不被設計來捕捉類似的交互作用,因此方法之間的一致并不一定適合于評估性能。另一項比較研究考察了包含偽時間信息的多種網絡推理方法(如SCINGE、SCODE和SINCERITIES)的性能,也表明許多調節目標預測對于每一種被測試的方法都可以接近隨機。
這些發現需要對單細胞網絡建模方法進行改進,并對現有的單細胞GRN方法的性能進行全面評估。另一方面,由生物學假設和數據驅動的基因共同表達驅動的配體-受體框架似乎在細胞-細胞通信網絡建模中很有前景。例如,用這種方法對scRNAseq數據進行建模,再現了海馬體內已知的細胞-細胞相互作用。
理想與現實之間
單細胞多組學分析技術正在迅速發展,帶來革命性的力量以提高我們對生命的基本單位----細胞-----以及在生理和病理條件下細胞之間的綜合了解。在更準確地分類細胞類型、糾正混雜因素、描述細胞譜系和細胞狀態轉變等方面取得了重大進展。然而,這些進展還不足以使我們完全理解個體細胞群功能的調節機制,以及決定更高水平組織功能的細胞-細胞相互作用。現有方法模型基因網絡優化的主要組織數據為單細胞數據表現不佳或不能適應新的生物單細胞數據,帶來的問題和方法,有效地和精確地模型流出單細胞數據到全面的RGNS的圖譜還在初級階段。特別是,目前仍急需新的網絡方法來解決單細胞數據的獨特挑戰,如數據稀疏性、多模態分布和更高維數。數據稀疏性問題可以通過改進單細胞技術來增強信號捕獲,或者通過更精確的注入方法來解決,這些方法得到了強有力的實驗驗證數據的支持。這些努力將有助于緩解與非標準數據分布相關的問題,這些問題限制了現有網絡方法的使用。另外,建立在更合適的統計數據和算法上的方法可以更好地適應dropout值和獨特的數據分布,這是有必要的。
在單細胞數據的網絡建模中,另一個重要但不太突出的缺陷是缺少空間信息來約束建模空間。目前許多高通量的單細胞測序方法缺乏保持單個細胞的空間身份的能力,這降低了準確解析細胞網絡的能力,特別是在開發階段。各種高通量熒光原位雜交(FISH)方法已被開發為解決空間信息的工具。假設細胞間的距離越近,就越有可能進行通信,可以利用成對單細胞間的空間距離作為建立更復雜、更準確的網絡模型的先驗。最近發現,產生配體的細胞與表達相應受體的靶細胞直接相鄰,這一假設得到了支持。基于單分子魚的方法的另一個關鍵優勢是,它們是非常定量的,并且不會出現中斷,而這種中斷會困擾基于高通量單細胞測序方法。在空間單細胞方法中,也可以將表型(即行為)與細胞激活(即cFos)結合,在假設特定表型或刺激中活躍的細胞更有可能進行交流的前提下,整合到模型中。此前,Moffitt等人曾使用這種方法來識別在養育過程中激活的神經元。因此,將單細胞測序方法與高通量單分子成像相結合,在提高單細胞分辨率下的網絡建模方面具有巨大潛力。盡管有潛力,但使用空間數據構建GRNs仍存在局限性和復雜性。首先,基于單分子fish方法的細胞分割是非平凡的,沒有它GRN的構建是不可能的。此外,單個圖像承載有限的動態細胞景觀表示。事實上,許多這些技術只能實現單個細胞的成像深度,因此它本質上是一個給定時間的二維快照,可能無法捕捉到在成像平面和時間框架之外的細胞動態。
目前,大多數方法都是為scRNAseq設計的,需要結合其他單細胞組學指標(遺傳、表觀遺傳和蛋白質)的方法。這與大組織GRN推斷所面臨的挑戰相同,而多組學集成和建模的最新進展可能為單細胞多組學建模提供指導。
最后,從經驗數據中預測的網絡的準確性很難評估,因為通過在體內單個細胞中干擾預測的調節因子進行高通量驗證比進行全身敲除或敲除更具挑戰性。值得肯定的是,新的高通量基因干擾技術,如Perturb-seq 與scRNAseq的結合,有可能深入了解基因和細胞之間的真正關系。來自這些平臺的數據可以作為更合適的基準數據集,通過測試每種方法檢索擾動-響應實驗中已知的真實調節關系或交互關系的效果,來評估現有網絡方法的預測。同樣,利用文獻中已知的、經過實驗驗證的基因-基因、細胞-細胞通路可以作為這些方法的基準。即使在沒有經過驗證的網絡連接的情況下,也可以采用基于社區的方法,通過結合多種方法推斷出的多個網絡來獲得一致的網絡,從而提高網絡性能。這種方法已經被證明對提高預測網絡的質量非常有價值。
總而言之,我們正在進入一個黃金時代,在這個時代,生物發現可以以前所未有的分辨率和通量進行。單細胞多組學數據的網絡建模是解開病理生理學背后復雜的分子機制和指導精準醫療的關鍵工具之一。盡管面臨諸多挑戰,但該領域正在迅速發展,方法創新的大量機會等待著更準確地描繪健康和疾病細胞的分子圖譜。
<單細胞時代 · 2021春節系列> 是參考學術或媒體文章整理而來,個人水平有限,錯訛難免,還請讀者諸君批評指正。內容均為個人觀點,不代表任何單位,也不構成就業或投資建議,圖片來自網絡,侵刪。