TY - JOUR
AU - Shafer, Maxwell E. R.
M3 - 10.3389/fcell.2019.00175
TI - Cross-Species Analysis of Single-Cell Transcriptomic Data
JO - Frontiers in Cell and Developmental Biology
UR - https://www.frontiersin.org/article/10.3389/fcell.2019.00175
隨著單細胞轉錄組測序技術的發展,越來越多的物種細胞圖譜得以揭曉。這些數據集允許我們提出關于細胞多樣性起源的問題,以及形成細胞形態和功能的進化機制。這些實驗的最終目標是產生細胞類型系統發育譜系,描述細胞類型之間的進化關系。然而,從不同來源、不同模型和非模型生物獲得的相關信息被許多技術和生物因素所混淆,使得單細胞數據的比較變得困難。
利用scrna測序分析數十萬到數百萬個單細胞的能力已經徹底改變了細胞和發育生物學領域,為許多物種的細胞類型的形式和功能的多樣性提供了令人難以置信的見解。這些技術有望發展出詳細的細胞類型譜系,從而描述跨物種細胞類型間的進化和發育關系。這將需要使用單細胞轉錄組學對許多物種和單細胞進行采樣,并對細胞類型同質性和多樣性進行分類。目前有許多工具用于分析單細胞數據和識別細胞類型。然而,跨物種比較由于許多生物學和技術因素而變得復雜。
這些因素包括深度測序方法引起的批量效應,同源基因和副合基因(orthologous and paralogous genes)之間的進化關系,以及物種間轉錄組變異形成的進化力量。在這篇綜述中,將討論在計算方法方面的最新進展,以比較跨物種的單細胞基因組數據。這些方法有潛力提供寶貴的見解,了解進化力量如何在細胞水平上發揮作用,并將進一步了解動物和細胞多樣性的進化起源。
單細胞測序和單細胞聚類方法
盡管對于這些轉錄差異是否是細胞類型或多樣性的可靠指標存在爭議,但單細胞測序技術仍然非常強大,有潛力用于了解跨物種的細胞類型之間的進化關系。事實上,這些技術最近已被用于比較小鼠和人類的胚胎大腦發育,以及爬行動物神經細胞類型的進化。
計算基因特異性的公式以及龜蜥蜴細胞類型(彩色圓點)之間這些值的實例相關性,其中紅色的Pearson相關系數值表示正相關,藍色表示負相關。
識別跨物種細胞類型注釋的隨機森林機器學習算法包括:首先對來自一個物種的細胞類型訓練一個算法(步驟1),然后預測來自不同物種的每個細胞在這些細胞類型中最相似的是哪個(步驟2),結果是一個混淆矩陣(confusion matrix)。動物圖標是從PhyloPic獲得的(www.phylopic.org)。
統計實驗和生物批處理效應
通過比較和對照單細胞數據集,可以觀察生物現象的重現性,或者通過將多個數據集合并到更大的細胞類型圖譜中來識別額外的細胞類型。對特定組織內的細胞類型進行跨物種比較,將有助于在模型和非模型系統之間轉換知識,并可能提示細胞類型之間的進化關系,從而生成細胞類型的系統發育譜系。然而,技術批量效應可以在每個實驗步驟中引入,從細胞分離過程、分離和條形碼、測序和分析。除了物種的起源,由遺傳背景、年齡和性別差異引起的生物批次效應也需要考慮。有幾個小組已經生成了計算工具來處理單細胞數據特有的批處理效果。這些方法從批量rna測序實驗的比較中吸取了教訓,但經過改進,能夠解決單細胞數據的高度異質性。
比較不同物種的細胞類型
物種單細胞數據集既可以單獨分析和注釋,也可以組合分析/注釋。單獨的分析需要對細胞類型進行交叉注釋(通常是手工注釋),但保留數據集內部的異構性。聯合分析增加了用于聚類的細胞數量,從而可以識別額外的異質性和罕見的細胞種群。然而,它更復雜,計算量更大,可能會模糊物種特有的細胞類型。聯合分析“批量校正(batch-correct)”的潛在基因表達數據,使每個物種細胞內的基因表達水平彼此相似。
跨物種整合單細胞RNA-seq數據集的方法中,細胞通常根據數據集或物種而不是細胞類型聚集在一起。為了集成下游分析的數據集,可以使用批量校正算法。
數據集集成可以通過使用相互最近鄰居(MNN)之間的差異、典型相關分析(CCA)或兩者的組合來識別批量校正向量來完成。
綜合非負矩陣因子分解(iNMF)可以將細胞×基因表達矩陣分解成單獨的因子矩陣,這些因子矩陣可以代表影響基因表達模式的物種特異性因子。然后,這些因素可以被移除,以允許細胞類型聚類,同時保留關于哪些基因有助于物種特異性差異的信息。
在主元空間中,基于細胞型中心體,Harmony迭代計算批量校正向量。
跨物種的基因間的標準分配(物種形成節點后的藍線和紅線)由于基因復制事件(復制節點)而變得復雜。此外,在跨物種分配標準品和基因功能時,應考慮基因表達的次功能化(粉紅色虛線框)或新功能化(綠色虛線框)(標準品檢測)。
單細胞數據集的整合
最大的困難在于批次效應。數據集的計算集成允許統一的下游分析,但是,在刪除物種特定的批處理效果時必須考慮幾個因素。大多數批量校正方法都是基于線性回歸的,它先擬合一個描述批量效應的線性模型,然后在不考慮批量效應的情況下推導出一個新的表達矩陣。這種方法對于單細胞RNA-seq數據是有問題的,因為它假設每個數據集中的細胞類型是相同的,并且所有細胞類型的批處理效果是一致的。單細胞RNA-seq整合方法必須能夠描述物種之間共享的和細胞類型的具體差異,并解釋取樣方法(觀察到的細胞/基因數量,或物種之間解離協議的差異)造成的差異。一般來說,這些技術的目的是將兩個物種的細胞嵌入到一個共享的低維空間中,在這個空間中可以比較亞群和細胞。
發表的第一個此類集成方法mnnCorrect/fastMNN,在高維基因表達空間中識別相互近鄰(MNNs),以識別細胞類型特定的批處理糾正載體。
Seurat也包含了用于數據集集成的幾種方法。最初的Seurat比對過程涉及使用典型相關分析(CCA)在數據集或物種之間識別共享的相關結構。CCA識別出與表達差異相關的基因群。這些差異然后被用來批量糾正每組基因的不同使用非線性動態翻轉(non-linear dynamic warping),生成一個共享的低維空間。在Seurat v3.0中,作者結合了MNNs來幫助數據集集成。在CCA和動態翻轉之后,mnn在數據集之間被識別,并被用作“錨”來計算進一步的校正向量,此方法類似于mnnCorrect/fastMNN。
這些方法的一個大問題是在整合過程中過度擬合,導致細胞類型的合并,或模糊數據集特異性基因表達差異。Seurat和mnnCorrect/fastMNN都使用MNNs,當單元類型只出現在數據集的一個子集時,可以減少這種影響,因為它們在任何其他數據集中都沒有相互最近的鄰居。Scanorama的全景拼接算法(panoramic stitching algorithms)使用了一種更通用的MNN技術,旨在進一步減少數據集之間的過擬合量,使用的過程類似于從單個圖像創建全景。
第三種方法,LIGER,使用整合非負矩陣分解(iNMF)來學習數據集之間共享的和唯一的基因表達特征。iNMF將一個矩陣(如細胞通過基因表達矩陣)分解為多個基向量(細胞通過因子矩陣)和系數向量(因子通過基因矩陣)的矩陣。因子代表了基因協同調控的模式,通常與代表特定細胞類型的基因組相對應。對于每個數據集,LIGER還推斷出與物種特有信號相對應的獨立因素。
Harmony將來自不同數據集的類似細胞類型向低維PCA空間中的共享形心方向修正,迭代運行,直到數據集收斂。
conos使用統一的圖形表示來跨廣泛的數據集集合映射單元類型。數據集之間的虛假連接被最小化——只有跨多個數據集相互映射的細胞被用來識別公共的子群。
盡管上述方法為跨物種比較單細胞數據提供了令人興奮的可能性,但在實現過程中仍存在許多問題。目前所有的方法都要求在分析時只使用物種間的同源基因。這些基因用于特征選擇和主成分分析。僅在一個數據集中表達的非同源基因極大地促進了變異,并可促使細胞在跨物種間與自己的物種而不是同一細胞類型聚在一起。然而,通過排除沒有一對一匹配或一對多匹配的基因,物種特異性信息可能會丟失。事實上,已知的clade-specific genes可以促進物種特異性細胞類型的多樣化,在基因復制后的一個基因拷貝的表達模式中,亞功能化或新功能化是常見的。
對于親緣關系很近的物種,如人類和老鼠,基因symbols 可以很容易地進行匹配來識別標準。對于親緣關系較遠的生物體,可以使用ENSEMBL等數據庫來識別一對一的匹配。這對于親緣關系很近的物種來說很有效,但是隨著物種間進化時間的增加,以及基因之間的關系變得不那么清晰,這就變得更加困難了。在系統基因組學領域,同源性鑒定已經得到了廣泛的應用,用于鑒定物種之間的關系,并對基因組進行功能注釋。目前存在許多正射影像檢測技術,其中大多數是基于序列相似性和reciprocal BLAST 等方法。為了避免依賴一對一的同源性來理解基因功能,在聚類算法中加入基因標準或序列相似性的度量將是很重要的。上述的一些整合方法可能已經解釋了基因表達的相關進化差異(LIGER, Seurat)。另外,在聚類分析中去除相關性最強的基因也是一種謹慎的方法。
展望
構建細胞系統發育學還應努力正確識別物種內部和物種之間轉錄相似的細胞類型之間的進化關系。相似性可能來自于共同的祖先(同源性),也可能來自于趨同于相同的細胞特征(同質性)。同源細胞模塊和基因調控網絡的重復使用、再利用或協同選擇被認為是細胞類型趨同的基礎。這種深層同源性不僅導致相似的細胞功能,而且可能導致高度相似的細胞轉錄組。因此,用單細胞測序從同源性中分離同型可能是困難的。沿著更大的系統發育帶對許多組織進行取樣是必要的,以確定特定的細胞類型在進化史上何時何地出現。從這些實驗中可以得到簡潔的解釋,為同源性或同質性提供證據,并確定特定細胞身份的進化史。
最后,在比較物種間在細胞類型和基因表達模式方面的差異時,有必要結合系統發育比較方法。由于這些物種的進化史,生物特征在不同物種間表現出依賴性——親緣關系更近的物種有更多相似的特征,這也適用于細胞類型識別和基因表達模式。系統發育比較法考慮了進化歷史,沿著進化樹建模性狀變化,并在統計比較中明確考慮了它們的相關性。這些已經成功地應用于大量的轉錄組學數據,并且應該擴展到單細胞轉錄組學,在單細胞轉錄組學中,特征的獨立性通常是假定的。
結論
許多單細胞測序的技術、工具和技術已經可以用于物種間的比較。然而,在轉錄組學和進化細胞生物學領域,基于進化知識的現有方法的改進和完善應該被視為優先考慮的問題。了解細胞的進化史和細胞之間的關系將有助于理解細胞類型的定義,以及控制細胞類型的分子機制。利用這個進化框架,研究發育階段、細胞狀態和cel之間的連續性。對細胞類型及其進化起源的整體鑒定需要多種證據的結合,不僅包括分子鑒定,還包括功能鑒定和發育譜系信息。近年來已發展出利用CRISPR條形碼重建發育譜系軌跡的方法。將譜系信息整合進進化比較將是一項困難但重要的任務。對進化和細胞類型的全面理解將使我們能夠建立細胞類型系統發育學,并利用它們來提出關于細胞變化如何影響機體適應和選擇以及進化如何作用于細胞生物的重要問題。