hello,大家好,隨著我們認識的深入,分享的內容也越來越“高大上”,這次要分享的內容就是神經網絡運用到我們的單細胞或者空間的數據分析。
密蘇里大學許東教授和俄亥俄州立大學馬勤教授的團隊發表在Nature Communications上的一篇文章 “scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses”。單細胞RNA測序 (scRNA-seq) 被廣泛應用于揭示組織、生物和復雜疾病的異質性和動力學,但其分析仍面臨多個重大挑戰,包括測序的稀疏性和基因表達的復雜差異模式。本文提出了scGNN (單細胞圖神經網絡),為scRNA-seq分析提供了一個無假設的深度學習框架。這個框架用圖神經網絡來表達和聚集細胞間的關系,并使用左截斷的混合高斯模型來建模異質基因表達模式。scGNN集成了三種迭代多模態自動編碼器,其在四個scRNA-seq基準數據集上的基因插補和細胞聚類性能優于現有工具。在一項阿爾茨海默癥研究中,從死后腦組織中提取13214個單核,scGNN成功地闡明了疾病相關的神經發育和差異機制。scGNN為基因表達和細胞間關系的有效表達提供了幫助。它也是一個強大的可以應用于一般的scRNA-Seq分析的框架。
圖片.png
一、研究背景
單細胞RNA測序 (scRNA-seq) 技術可在單個細胞中進行轉錄組的基因表達測量,這對于識別細胞類型簇,根據軌跡拓撲推斷細胞群體的排列以及在表征復雜疾病中的細胞異質性時突出體細胞克隆結構是必不可少的。但scRNA-seq分析仍然具有挑戰性,因為它的數據分布復雜且不確定,具有很高的“dropout”率。一些現有方法,例如Phenograph,MAGIC和Seurat使用K級最近鄰 (KNN) 圖來建模細胞之間的關系。但是,這樣的圖形表示可能會過度簡化全局的復雜細胞和基因關系。最近,新興的圖神經網絡 (GNN) 通過在深度學習體系結構中傳播近鄰信息來解釋卷積圖中的節點關系。與用于scRNA-seq分析的其他自編碼器通過重建自己的輸入來揭示scRNA-seq數據的有效表示相比,圖自編碼器的獨特功能在于能夠學習圖拓撲的低維表示并在整個圖的全局視圖中訓練節點關系。
本文提出了一個多模態框架scGNN (單細胞圖神經網絡) ,用于從scRNA-seq中建模異質細胞-細胞關系及其潛在的復雜基因表達模式。scGNN通過基于基因表達和轉錄調控信息的拓撲抽象,訓練低維特征向量來表示細胞之間的關系。scGNN有三個獨特的特征:(i) scGNN利用帶有多模式自編碼器的GNN來構建和聚集細胞之間的關系,提供一個無假設的框架來推導生物學上有意義的關系。該框架不需要為基因表達數據或“dropout”事件假定任何統計分布或關系。(ii) 在構建細胞圖時,對細胞類型特異性的調節信號進行建模,對scRNA-seq數據采用左截斷混合高斯 (LTMG) 模型。這可以提高信噪比,以嵌入生物學上有意義的信息。(iii) 自底向上的細胞關系由動態修剪的GNN細胞圖表示。整個圖可以通過池化在學習圖上嵌入圖中的所有節點來表示。可以將圖嵌入作為低維、耐噪聲的特征來保持細胞圖的拓撲關系。在恢復基因表達值的自編碼器訓練中,將衍生的細胞間關系作為正則化器。
二、模型
以scRNA-seq生成的基因表達矩陣為輸入。LTMG可以將輸入的基因表達數據轉換為離散化的調節信號,作為特征自編碼器的正則化器。特征自編碼器學習輸入的維度表示作為嵌入,并在其上構造和修剪細胞圖。圖自編碼器學習拓撲圖嵌入的細胞圖,用于細胞類型聚類。每種細胞類型的細胞都有一個單獨的簇式自編碼器來重建基因表達值。該框架將重構后的表達式作為一個新的輸入迭代,直到收斂。最后,特征自編碼器通過學習到的細胞圖上的細胞間關系對預處理后的原始表達矩陣進行正則化,得到插補后的基因表達值 (圖1)。
圖片.png
- 圖1 scGNN的流程結構
三、實驗結果
3.1 scGNN可以有效地插補scRNA-seq數據,準確地預測細胞簇
為了評估scGNN的插補和細胞聚類性能,本文選擇了四個具有黃金標準的細胞類型標簽的scRNA-seq數據集 (Chung,Kolodziejczy,Klein,Zeisel) 作為基準數據集。通過將一些非零項隨機轉化為零來模擬“dropout”。實驗計算了三個指標 (中位L1距離,余弦相似度以及RMSE) 來比較scGNN與九種插補方法的性能。在“dropout”率為10%和30%時,scGNN插補效果最好。而scGNN的余弦相似度評分在10%的“dropout”中排名第一,在30%的概率中排名第三 (圖2a)。此外,scGNN可以恢復由于scRNA-seq稀疏性而在原始表達數據中丟失的潛在基因間關系。例如,兩個多能性外胚層基因對,Ccnd3與Pou5f1以及Nanog與Trim28,在原始數據中相關性較低,但在經過scGNN插補后相關性變強 (圖2b)。
scGNN還可以放大差異表達基因 (DEGs) 信號的倍數變化 (FC) (圖2c)。本實驗還利用其他插補工具比較了插值前后DEG信號的變化。使用Klein數據和Zeisel數據中第1天細胞的原始表達值和scGNN插補的表達值對DEG的logFC評分進行比較。其差異性信號在插補后被增強。結果表明,scGNN可以準確地恢復表達值,捕捉真實的基因間關系,增加DEG信號,且不會引入額外的噪聲。
圖片.png
- 圖2 插補性能比較
3.2 scGNN可以準確地預測細胞簇
除了人工模擬“dropout”的基準數據集,本文繼續評估scGNN和9個插補工具在相同兩個數據集上的聚類性能。使用10個指標系統地評估預測的細胞標簽,包括調整后的蘭德指數 (ARI) 等 (圖3a)。通過UMAP可視化細胞聚類結果,與其他9種工具相比,使用scGNN時,可以觀察到同一簇內細胞更接近,不同簇之間更分離 (圖3b)。隨著胚胎干細胞發育,表達模式顯示出異質性。在Klein的時間序列數據中,scGNN恢復了一個原始數據不能很好地顯示的復雜結構,即從第1天到第7天細胞發育的一條排列良好的軌跡路徑 (圖3c)。
在此基礎上,為了說明在scGNN中使用圖自編碼器和簇自編碼器的意義,本實驗進行了消融試驗來繞過每個自編碼器,并比較了Klein數據集上的ARI結果(圖3d)。其中GA-表示去除圖自編碼器的結果,CA-表示去除聚類自編碼器的結果,AG表示使用框架中所有基因后的結果。結果顯示,除去這兩個自編碼器中的任何一個都會顯著降低scGNN在細胞聚類精度方面的性能。
圖片.png
- 圖3 細胞聚類和軌跡評估
3.3 scGNN說明AD相關的神經發育及其潛在的調節機制
為了進一步證明scGNN的能力,本實驗將其應用于在6個AD (阿爾茲海默癥) 和6個對照大腦中收集的13,214個單核的scRNA-seq數據集 (GSE138852)。scGNN識別出10個細胞簇 (圖4a)。這10個細胞簇中的6個少突膠質細胞亞簇在AD患者 (Oligos 2、3、4) 和健康對照者 (Oligos 1、5、6) 之間的比例不同 (圖4b)。然后將這6個少突膠質細胞亞簇組合成一個簇來檢測DEGs。由于scGNN可以顯著增加原始數據集中的真實信號,DEG模式更加明確。在所有的DEGs中,確認了22個基因為細胞類型特異性基因 (圖4c)。此外,一項生物途徑富集分析顯示,與所有五種細胞類型的細胞相比,AD細胞中有幾種高度陽性的富集 (圖5d)。
為了研究AD相關神經發育的調控機制,實驗將scGNN插補的矩陣應用于IRIS3 (來自scRNA-seq的整合細胞類型特異性調控的服務器),并在5種細胞類型中鑒定出21種細胞類型特異性調控 (CTSR) (圖4e)。不足為奇的是,實驗發現了一些與AD相關的轉錄因子 (TFs) 和靶基因,這些轉錄因子和靶基因已經被發現參與了AD的發展進程。其中SP2就是一種常見的TF,可在少突膠質細胞和星形膠質細胞中發現。此外,在所有細胞簇中都發現了調節神經元突觸功能的SP3 TF。這一發現為發現SP3在AD研究中的作用提供了方向。
圖片.png
- 圖4 基于scGNN的阿爾茨海默氏病數據集 (GSE138852) 分析
四、總結
與以前在scRNA-seq數據分析中應用自編碼器不同,scGNN可以使用自底向上的方法有效地聚合相似細胞之間的關系。且scGNN的插補可以減少不同測序技術引入的批效應。此外,scGNN通過在特征自編碼正則化的LTMG中離散表示基因調控信號,而有效地集成了調控信號。這些信號可以幫助識別生物學上有意義的基因-基因關系。值得注意的是,scGNN是一個基于數據驅動細胞圖模型的無假設深度學習框架,它可以靈活地合并不同的統計模型 (例如,LTMG) 來分析復雜的scRNA-seq數據集。除上述實驗之外,作者在原文中還進行了一些其他的實驗并在補充材料中提供了許多其他的實驗數據,感興趣的可以深入研究一下。
代碼在scGNN,大家多多嘗試一些新的方法,對自己的幫助很大。
生活很好,有你更好