單細(xì)胞時(shí)代 || 網(wǎng)絡(luò)分析應(yīng)用進(jìn)展,機(jī)遇與挑戰(zhàn)

前情回顧:
單細(xì)胞時(shí)代 || 細(xì)胞身份概念的演變
單細(xì)胞時(shí)代 || 從眾病之王到希望之光
單細(xì)胞時(shí)代 || 宿主-微生物組相互作用

Network modeling of single-cell omics data: challenges, opportunities, and progresses

這不是最好的時(shí)代,也不是最壞的時(shí)代,這里是單細(xì)胞時(shí)代。靈活的單細(xì)胞系統(tǒng),高效的組織解離液,開源的數(shù)據(jù)分析工具,端到端的單細(xì)胞解決方案是未來發(fā)展的趨勢(shì)。這里最主要的是開放靈活的單細(xì)胞系統(tǒng),有了這個(gè)系統(tǒng)我們就可以自主地設(shè)計(jì)反應(yīng)體系,來從不同緯度捕獲單個(gè)細(xì)胞的信息。

單細(xì)胞多組學(xué)技術(shù)正在以前所未有的速度促進(jìn)方法的進(jìn)步和生物學(xué)發(fā)現(xiàn)。基因調(diào)控網(wǎng)絡(luò)建模已被用于闡明生物過程和背后的復(fù)雜分子相互作用,但在單細(xì)胞組學(xué)數(shù)據(jù)建模中的應(yīng)用遇到了獨(dú)特的挑戰(zhàn)和機(jī)遇。在這篇綜述中,我們討論了這些挑戰(zhàn)和機(jī)遇,并提供了網(wǎng)絡(luò)建模方法的最新發(fā)展概況,這些方法設(shè)計(jì)用于描述

  • 動(dòng)態(tài)網(wǎng)絡(luò)
  • 細(xì)胞內(nèi)網(wǎng)絡(luò)
  • 細(xì)胞間交互或通信網(wǎng)絡(luò)

在數(shù)據(jù)科學(xué)中,我們主要目標(biāo)是元素的對(duì)象和屬性及其之間的關(guān)系。在單細(xì)胞數(shù)據(jù)科學(xué)中,上游是在描述元素,如細(xì)胞的特性或基因的表達(dá)量,下游往往是描述細(xì)胞之間或基因之間的關(guān)系。網(wǎng)絡(luò)是解析關(guān)系的有利工具。

網(wǎng)絡(luò)建模長(zhǎng)期以來被用作理解和解釋復(fù)雜生物系統(tǒng)的強(qiáng)大工具,網(wǎng)絡(luò)本身既是計(jì)算框架又是主要的數(shù)據(jù)類型。生物系統(tǒng)網(wǎng)絡(luò)描述為節(jié)點(diǎn)和邊,節(jié)點(diǎn)代表生物實(shí)體如基因、蛋白質(zhì)、代謝物,表型特征,細(xì)胞,環(huán)境暴露,甚至腸道細(xì)菌;邊代表如regulator-effector連接節(jié)點(diǎn)之間的關(guān)系,統(tǒng)計(jì)相關(guān)性,物理結(jié)合,酶或代謝反應(yīng)(圖1)。


圖1

隨著生物數(shù)據(jù)的數(shù)量和類型持續(xù)以指數(shù)速度增長(zhǎng),生物網(wǎng)絡(luò)的數(shù)量和類型也在增長(zhǎng),包括蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)、遺傳相互作用網(wǎng)絡(luò)、基因/轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)(GRNs)、細(xì)胞信號(hào)網(wǎng)絡(luò)。雖然不同的網(wǎng)絡(luò)模型根據(jù)其基本假設(shè)具有固有的優(yōu)勢(shì)和局限性,但它們都具有圖形化模型的共同特征,即描述生物系統(tǒng)中的信息流,以幫助理解和解釋基本的生物過程。

在過去的幾十年里,網(wǎng)絡(luò)建模被廣泛應(yīng)用于幫助理解關(guān)鍵的生物過程和健康和疾病的調(diào)節(jié)。特別是,人類生理和病理生理學(xué)的巨大復(fù)雜性要求在系統(tǒng)水平上理解生物分子如何在單個(gè)細(xì)胞和組織內(nèi)相互作用,細(xì)胞和組織之間如何相互作用以維持體內(nèi)平衡,以及這些相互作用的干擾如何導(dǎo)致疾病。omnigenic disease模型指出,網(wǎng)絡(luò)中所有基因的相互作用都可能導(dǎo)致復(fù)雜疾病,該模型正日益被人們所認(rèn)可和接受。這些概念框架完全符合網(wǎng)絡(luò)生物學(xué),因此,在生物學(xué)的所有領(lǐng)域中,網(wǎng)絡(luò)建模方法的使用越來越多也就不足為奇了。

例如,許多遺傳變異可以影響疾病,每一種變異都通過很小的影響使生物學(xué)解釋變得困難。這些復(fù)雜的遺傳效應(yīng)可以通過它們?cè)谵D(zhuǎn)錄、信號(hào)網(wǎng)絡(luò)和生物途徑中的關(guān)系來更好地理解。我們的團(tuán)隊(duì)和其他人已經(jīng)利用網(wǎng)絡(luò)模型來解釋復(fù)雜疾病的遺傳原因。類似地,網(wǎng)絡(luò)可以用來了解與各種環(huán)境引起的疾病有關(guān)的分子級(jí)聯(lián)。例如,Chella Krishnan等人通過整合組織特異性GRNs的遺傳關(guān)聯(lián),發(fā)現(xiàn)與非酒精性脂肪肝相關(guān)的大量遺傳變異影響多種生物途徑,包括脂質(zhì)代謝、免疫系統(tǒng)、細(xì)胞周期、轉(zhuǎn)錄調(diào)節(jié)、胰島素信號(hào)、Notch信號(hào)和氧化磷酸化,這些途徑在肝臟和脂肪組織的GRNs中相互作用。

基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),他們確定了疾病通路和亞網(wǎng)絡(luò)中心參與線粒體功能的關(guān)鍵調(diào)節(jié)因子。在另一項(xiàng)研究中,利用組織特異性GRNs對(duì)心血管疾病和2型糖尿病的遺傳風(fēng)險(xiǎn)進(jìn)行網(wǎng)絡(luò)建模,揭示了共享的和疾病特異性的網(wǎng)絡(luò)和調(diào)節(jié)因子。格林等建造144組織特異性網(wǎng)絡(luò)和使用這些網(wǎng)絡(luò)來預(yù)測(cè)和理解lineage-specific IL1B刺激的反應(yīng)。

雖然基于網(wǎng)絡(luò)的方法促進(jìn)了我們對(duì)復(fù)雜疾病的理解,但需要注意的是,大多數(shù)網(wǎng)絡(luò)方法和應(yīng)用主要依賴于從bulk組織中獲得的組學(xué)數(shù)據(jù)。在組織水平上,已經(jīng)開發(fā)了許多用于網(wǎng)絡(luò)建模的方法和算法,主要關(guān)注于預(yù)測(cè)組織內(nèi)和組織間的GRNs,并具有合理的準(zhǔn)確性。然而,肝臟的非實(shí)質(zhì)細(xì)胞等組織是由包括庫普弗細(xì)胞、竇狀內(nèi)皮細(xì)胞和肝細(xì)胞衛(wèi)星細(xì)胞在內(nèi)的異質(zhì)細(xì)胞群組成的,它們都具有與獨(dú)特的基因調(diào)控譜相關(guān)的獨(dú)特功能。考慮到組織的異質(zhì)性,組織網(wǎng)絡(luò)主要代表了所有細(xì)胞群的平均活動(dòng),這些細(xì)胞群可以由最豐富的細(xì)胞類型所控制。因此,組織網(wǎng)絡(luò)無法捕捉單個(gè)細(xì)胞群的獨(dú)特行為,以及細(xì)胞如何相互作用來執(zhí)行更高層次的組織功能。

最近的高通量單細(xì)胞組學(xué)技術(shù)的爆炸帶來了令人興奮的可能性,包括但不限于動(dòng)力模型,內(nèi)部和細(xì)胞間的基因網(wǎng)絡(luò),以闡明背后的過程,細(xì)胞發(fā)育,功能狀態(tài)和細(xì)胞-細(xì)胞通訊,而這些不可能在bulk水平獲得。這些單細(xì)胞組學(xué)技術(shù)給了我們前所未有的能力以檢查轉(zhuǎn)錄,蛋白質(zhì)和表觀基因組的概況在單細(xì)胞解決,在調(diào)節(jié)和功能關(guān)系的生物分子在單個(gè)細(xì)胞或細(xì)胞類型以及細(xì)胞群之間。在理論上,類似的框架和方法已經(jīng)被用于組織網(wǎng)絡(luò)建模,可以擴(kuò)展到單細(xì)胞數(shù)據(jù),以揭示調(diào)控細(xì)胞內(nèi)部和細(xì)胞之間的功能的調(diào)節(jié)機(jī)制。然而,正如Chen和Mar在他們最近的研究中所指出的,bulk組織模型可能不太適合克服單細(xì)胞數(shù)據(jù)帶來的獨(dú)特挑戰(zhàn)。

在此,我們將討論為bulk組織組學(xué)數(shù)據(jù)開發(fā)的現(xiàn)有網(wǎng)絡(luò)建模方法,使用單細(xì)胞組學(xué)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)建模所面臨的獨(dú)特挑戰(zhàn),利用單細(xì)胞數(shù)據(jù)建立網(wǎng)絡(luò)模型的方法的最新發(fā)展及其關(guān)鍵的底層算法優(yōu)缺點(diǎn)。最后,我們討論了有待克服的問題以及我們認(rèn)為該領(lǐng)域?qū)⒃谀男┓矫鎸?shí)現(xiàn)基于單細(xì)胞組學(xué)數(shù)據(jù)的更高效、更準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)建模。

bulk組織數(shù)據(jù)GRN建模方法

針對(duì)bulk組織數(shù)據(jù)開發(fā)和優(yōu)化的常見GRN方法通常基于相關(guān)、回歸、常微分方程(ode)、互信息、高斯圖形模型和貝葉斯方法。例如:

  • 基于相關(guān)關(guān)系的加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)是最常用的方法。WGCNA用于發(fā)現(xiàn)高度相關(guān)的基因簇(或模塊),這些基因通常代表參與類似生物途徑或功能的受到嚴(yán)格調(diào)控的基因。雖然基于共表達(dá)的方法計(jì)算效率高,且較少依賴于假設(shè),但這些方法主要對(duì)功能相似或調(diào)控相似的基因進(jìn)行分組,但不能推斷出方向性或直接的調(diào)控關(guān)系,需要整合其他信息以促進(jìn)可解釋性。
  • 基于回歸的方法,如GENIE3,通過基于回歸模型確定每個(gè)網(wǎng)絡(luò)基因的最具預(yù)測(cè)性的基因子集來解析網(wǎng)絡(luò)。這些方法適用于線性級(jí)聯(lián),但不適用于前饋回路。
  • 對(duì)于基于相互信息的方法,如ARACNE和CLR,網(wǎng)絡(luò)結(jié)構(gòu)是由基因?qū)χg的依賴程度決定的。這些相互信息的網(wǎng)絡(luò)方法可以推斷方向性和潛在的因果關(guān)系,可以更準(zhǔn)確地預(yù)測(cè)前饋回路,但線性級(jí)聯(lián)的性能有限。
  • 貝葉斯網(wǎng)絡(luò)(BN)建模方法提供了靈活的框架來合并和整合多組數(shù)據(jù)作為先驗(yàn)信息,以推斷因果性和方向性基因-基因相互作用。BN編碼基因之間的條件依賴性,其中每個(gè)基因由其父節(jié)點(diǎn)的值決定。為了提高精確度,BNs通過可能圖的多元空間進(jìn)行搜索,這樣做的代價(jià)是較高的計(jì)算成本,并且不能保證可以檢測(cè)到最優(yōu)拓?fù)洹?/li>

常用的GRN推理算法各有優(yōu)缺點(diǎn),多方法的集成可以彌補(bǔ)每種方法固有的缺點(diǎn),更好地解釋數(shù)據(jù)。需要注意的是,這些方法是針對(duì)bulk組織級(jí)數(shù)據(jù)進(jìn)行優(yōu)化的,這些數(shù)據(jù)通常符合標(biāo)準(zhǔn)數(shù)據(jù)分布,并且?guī)缀鯖]有缺失值。

單細(xì)胞技術(shù)和數(shù)據(jù)結(jié)構(gòu)

利用最近開發(fā)的單細(xì)胞技術(shù),我們現(xiàn)在能夠檢測(cè)轉(zhuǎn)錄(DropSeq , inDrop, 10X,SmartSeq v4,Marsseq , Seq-Well , SPLiT-seq , sci-RNA-seq),蛋白質(zhì)(CITE-seq),以及表觀基因組如開放染色質(zhì)(scacc -seq)和甲基化景觀。這些單細(xì)胞技術(shù)帶來了令人興奮的可能性,以前所未有的分辨率和規(guī)模探索生物學(xué)。單細(xì)胞RNA測(cè)序(scRNAseq)是目前最流行和廣泛應(yīng)用的高通量檢測(cè)單細(xì)胞的技術(shù)。通常,這些高通量單細(xì)胞轉(zhuǎn)錄組技術(shù)是基于從3 '端計(jì)數(shù)轉(zhuǎn)錄片段,然后與參考基因組對(duì)齊。由此產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)集合了每個(gè)單細(xì)胞的基因計(jì)數(shù),稱為數(shù)字基因表達(dá)譜(digital gene expression ,DGE)。

對(duì)于其他數(shù)據(jù)類型,相似的細(xì)胞標(biāo)記(如蛋白質(zhì),染色質(zhì)位置,和甲基化位點(diǎn))矩陣形成主要的數(shù)據(jù)結(jié)構(gòu)。雖然已經(jīng)將單細(xì)胞表觀基因組投射到單細(xì)胞轉(zhuǎn)錄組上,但就我們所知,整合多組數(shù)據(jù)用于GRN建模還沒有嘗試過,這是方法學(xué)未來發(fā)展的方向。多組數(shù)據(jù)可以以多種方式合并,包括構(gòu)建一個(gè)跨組學(xué)層外推的具有邊緣置信度的單一網(wǎng)絡(luò),以及從單個(gè)組學(xué)層構(gòu)建多個(gè)網(wǎng)絡(luò),通過關(guān)聯(lián)關(guān)系或已知功能相關(guān)性在各層之間進(jìn)行交互。例如,位于特定基因啟動(dòng)子或增強(qiáng)子區(qū)域的開放染色質(zhì)將允許在scac -seq和scRNAseq層之間繪制有向邊;蛋白質(zhì)組數(shù)據(jù)可以幫助推斷蛋白質(zhì)之間的相互作用,并提供有關(guān)調(diào)控蛋白質(zhì)的信息,如轉(zhuǎn)錄因子(TFs)和調(diào)控轉(zhuǎn)錄組和表觀基因組的表觀基因組調(diào)控。在這篇綜述中,我們將重點(diǎn)關(guān)注scRNAseq數(shù)據(jù),因?yàn)樗鼈兪荊RN建模中研究的最豐富的單細(xì)胞數(shù)據(jù)類型。

現(xiàn)有GRN方法在單細(xì)胞網(wǎng)絡(luò)建模中的性能

最近,Chen和Mar在利用經(jīng)驗(yàn)和模擬單細(xì)胞數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時(shí),評(píng)估了五種常用的用于bulk組織數(shù)據(jù)的廣義網(wǎng)絡(luò)重建方法的能力。在他們的分析中使用的方法包括部分相關(guān)、BN、GENIE3、ARACNE和CLR。利用精確召回和接受者工作特性曲線( precision-recall and receiver operating characteristic curves )來評(píng)估每種方法是否能準(zhǔn)確再現(xiàn)參考網(wǎng)絡(luò),發(fā)現(xiàn)在模擬和實(shí)驗(yàn)單細(xì)胞數(shù)據(jù)集中,所有方法都沒有明顯優(yōu)于隨機(jī)生成方法。此外,在網(wǎng)絡(luò)預(yù)測(cè)中,不同方法之間也只存在有限的重疊。這表明,現(xiàn)有的基于單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建設(shè)方法缺乏通用性和適用性。然而,在解釋這種比較結(jié)果時(shí)需要謹(jǐn)慎,因?yàn)槭褂玫慕饦?biāo)準(zhǔn)參考網(wǎng)絡(luò)的有效性和質(zhì)量評(píng)價(jià)指標(biāo)會(huì)顯著影響比較結(jié)果。

scRNAseq數(shù)據(jù)網(wǎng)絡(luò)建模中特有挑戰(zhàn)與機(jī)遇

現(xiàn)有方法的潛在性能不足可能是由于與數(shù)據(jù)稀疏性、分布以及數(shù)據(jù)維數(shù)和容量增加相關(guān)的獨(dú)特挑戰(zhàn)造成的。

首先,對(duì)于使用最近的高通量平臺(tái)的scRNAseq來說,由于單細(xì)胞中存在的mRNA數(shù)量非常少,以及目前技術(shù)限制導(dǎo)致DGE矩陣中的大多數(shù)條目都是零,這導(dǎo)致矩陣非常稀疏,使得為bulk組織數(shù)據(jù)設(shè)計(jì)的方法的直接擴(kuò)展非常困難。重要的是,盡管這些零可能是個(gè)體細(xì)胞中隨機(jī)基因表達(dá)的結(jié)果(生物學(xué)上的零),但它們并不一定意味著mRNA分子的缺失,而是對(duì)中至低表達(dá)基因的低技術(shù)敏感性的結(jié)果,稱為缺失【著名的雙零問題】。值得注意的是,基于讀取計(jì)數(shù)的scRNAseq是零膨脹的,而包含獨(dú)特分子標(biāo)識(shí)符(UMI)計(jì)數(shù)的scRNAseq被發(fā)現(xiàn)具有“非零膨脹”特征,導(dǎo)致與基于讀取計(jì)數(shù)的技術(shù)相比,其分布不同。reads計(jì)數(shù)和基于uml的scRNAseq中底層數(shù)據(jù)分布的差異要求在未來實(shí)現(xiàn)新方法時(shí)考慮這些不同技術(shù)的數(shù)據(jù)特征。

在試圖為缺失值賦值時(shí),許多單細(xì)胞歸算方法,例如MAGIC、scImpute、DrImpute、SAVER、BISCUIT、ScUnif、PBLR、deepImpute等得到了開發(fā)和應(yīng)用。但是,這些方法的性能差異很大。在基準(zhǔn)測(cè)試中,scImpute和DrImpute在模擬數(shù)據(jù)上成功,但在面對(duì)非共線經(jīng)驗(yàn)數(shù)據(jù)時(shí)失敗,而SAVER和BISCUIT只能持續(xù)地將dropouts歸為接近零的值。此外,用于測(cè)量性能的主要指標(biāo)(例如rand指數(shù)或相互信息)對(duì)這些方法定義細(xì)胞集群的能力進(jìn)行基準(zhǔn)測(cè)試;目前還不清楚這些估算值如何影響網(wǎng)絡(luò)結(jié)構(gòu)。由于對(duì)這些數(shù)值插入方法的結(jié)果沒有一致的意見和實(shí)驗(yàn)驗(yàn)證,在使用數(shù)值插入數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時(shí)需要謹(jǐn)慎。簡(jiǎn)單和直觀的方法由漢等使用相同的細(xì)胞亞群的細(xì)胞類型,平均每個(gè)基因在細(xì)胞的非零值從每個(gè)子集獲得一個(gè)超細(xì)胞(supercell)的基因表達(dá)矩陣,與零值和更少的膨脹可能更多的生物有關(guān)。值得注意的是,這種做法會(huì)減少細(xì)胞數(shù)量并犧牲統(tǒng)計(jì)能力。

第二個(gè)挑戰(zhàn)是與細(xì)胞數(shù)據(jù)中的dropout 問題相關(guān)的非標(biāo)準(zhǔn)數(shù)據(jù)分布模式。大量的缺失值顯著地使數(shù)據(jù)分布從單峰分布(如高斯分布)向多模態(tài)分布傾斜,這違反了大多數(shù)經(jīng)典GRN建模方法的統(tǒng)計(jì)假設(shè)。對(duì)于單細(xì)胞網(wǎng)絡(luò)的構(gòu)建,需要仔細(xì)評(píng)估數(shù)據(jù)分布模式和適當(dāng)?shù)慕y(tǒng)計(jì)方法。有幾種統(tǒng)計(jì)方法,如零膨脹因子分析(ZIFA)和ZINB-WaVE(基于零膨脹負(fù)二項(xiàng)式的期望變異提取)已經(jīng)被開發(fā)來專門建模零膨脹的單細(xì)胞數(shù)據(jù)分布。ZIFA是一種降維方法,其假設(shè)是低表達(dá)的基因比高表達(dá)的基因更有可能導(dǎo)致缺失。ZIFA擴(kuò)展了因子分析,在非零均值表達(dá)式的基礎(chǔ)上,將dropout率模型作為指數(shù)衰減。然而,ZIFA也有限制,因?yàn)樗鼑?yán)格地對(duì)零測(cè)量進(jìn)行建模,不能解釋接近零的值。此外,ZIFA還有一個(gè)底層的線性轉(zhuǎn)換框架;然而,非線性降維技術(shù),如t-SNE和UMAP已經(jīng)被證明在解釋單細(xì)胞數(shù)據(jù)中是有用的,所以零膨脹模型的擴(kuò)展到這些非線性方法可能是有用的。ZINB-WaVE是另一種降維技術(shù),它獨(dú)特地模擬了scRNAseq數(shù)據(jù)的計(jì)數(shù)性質(zhì),并使用樣本級(jí)截獲(sample-level intercept)和靈活的基因級(jí)和樣本級(jí)協(xié)變合并標(biāo)準(zhǔn)化,以解決批次效應(yīng)和序列組成效應(yīng)(如基因長(zhǎng)度或GC內(nèi)容)。為了解決數(shù)據(jù)的零膨脹和過度分散問題,ZINB-WaVE修改了一個(gè)不適合數(shù)據(jù)的標(biāo)準(zhǔn)負(fù)二項(xiàng)分布,用一個(gè)術(shù)語給出觀察到0的概率,而不是實(shí)際的計(jì)數(shù)。雖然ZINB-WaVE主要被證明是單細(xì)胞數(shù)據(jù)的降維技術(shù),但作者認(rèn)為低維表示可以用于下游分析,如聚類或偽時(shí)間。

最近,Townes等發(fā)現(xiàn)多項(xiàng)式方法在特征選擇和降維方面優(yōu)于現(xiàn)有的其他方法。考慮這些替代的統(tǒng)計(jì)方法在GRN推斷可能被證明是有用的。應(yīng)該指出的是,這些統(tǒng)計(jì)方法是為讀計(jì)數(shù)數(shù)據(jù)開發(fā)的,可能不適合基于UMI的單細(xì)胞數(shù)據(jù)集,因?yàn)樗鼈冇胁煌牡讓訑?shù)據(jù)分布,而這些數(shù)據(jù)分布不是零膨脹的。

第三,該領(lǐng)域必須掌握校正混雜因素的能力,并將從多個(gè)實(shí)驗(yàn)獲得的數(shù)據(jù)推斷為一個(gè)共同的圖譜。挑戰(zhàn)出現(xiàn)在各批次數(shù)據(jù)由變量構(gòu)成和研究,甚至批次還包含相同的細(xì)胞類型,個(gè)別細(xì)胞類型的細(xì)胞數(shù)量和轉(zhuǎn)錄狀態(tài)由于程序上可以有很大的不同噪聲(組織分離、排序和試劑批次),scRNAseq平臺(tái)(例如10×與Dropseq),和試劑版本(10×的2和3版本)。就像在bulk組織設(shè)置中使用批次校正來調(diào)整混雜因素一樣,不同實(shí)驗(yàn)甚至實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)集的集成是重要的,因?yàn)樗鰪?qiáng)了統(tǒng)計(jì)強(qiáng)度和重現(xiàn)性。最初用于bulk組織校正的方法,如limma和ComBat,已應(yīng)用于單細(xì)胞數(shù)據(jù)的批量校正;而,已有研究表明,將這些為bulk數(shù)據(jù)開發(fā)的方法同時(shí)應(yīng)用于模擬和真實(shí)單細(xì)胞數(shù)據(jù)存在局限性。最近,該領(lǐng)域取得了重大進(jìn)展,產(chǎn)生了專門用于單細(xì)胞批次校正的方法,如典型相關(guān)分析(CCA)和mnnCorrect,以及基于帶標(biāo)記的參考數(shù)據(jù)集的細(xì)胞類型識(shí)別方法,如scmap和singleR。然而,在對(duì)單細(xì)胞數(shù)據(jù)應(yīng)用批次修正方法后,謹(jǐn)慎地進(jìn)行下游分析(如GRN構(gòu)建)是很重要的,而且有必要了解底層算法和假設(shè)。

像CCA和mnnCorrect這樣的方法只利用跨數(shù)據(jù)集共享的高度可變的基因進(jìn)行集成,并返回一個(gè)校正后的基因表達(dá)矩陣,其中只包含用于集成的可變基因。這些基因主要定義細(xì)胞類型特異性標(biāo)記,而CCA的過程固有地引入了基因之間的依賴關(guān)系,并違反了用于下游分析(如差異表達(dá))的統(tǒng)計(jì)測(cè)試的假設(shè),因此CCA的作者警告說,不要使用CCA進(jìn)行跨數(shù)據(jù)集的保守細(xì)胞類型鑒定。一般來說,為批次數(shù)據(jù)開發(fā)的批次校正方法在批次校正中執(zhí)行得更差,而為單細(xì)胞數(shù)據(jù)開發(fā)的方法在從不同批次聚集細(xì)胞類型方面更準(zhǔn)確,但可能不能擴(kuò)展到下游分析。因此,有必要開發(fā)能兩者兼顧的方法。

最后,與通常由試驗(yàn)組id、樣本id和特征測(cè)量組成的bulk組織數(shù)據(jù)相比,單細(xì)胞數(shù)據(jù)通過從每個(gè)樣本中添加數(shù)十種細(xì)胞類型和數(shù)千個(gè)細(xì)胞,也呈現(xiàn)出維數(shù)和數(shù)據(jù)量的增加。這種維數(shù)和數(shù)據(jù)量的增加,不僅使網(wǎng)絡(luò)建模更加復(fù)雜,計(jì)算成本更高,而且從生物學(xué)角度帶來了現(xiàn)有方法無法承受的新可能性。除了基因在網(wǎng)絡(luò)中是如何組織和相互作用這一典型問題之外,人們還可以提出許多新的令人激動(dòng)的問題。例如:

  • 什么定義了細(xì)胞類型?
  • 基因在每種細(xì)胞類型中是如何組織的?
  • 細(xì)胞類型之間的網(wǎng)絡(luò)架構(gòu)有何不同?
  • 細(xì)胞之間的關(guān)系是什么?
  • 它們來自相同的還是不同的血統(tǒng)?
  • 這些血統(tǒng)是如何進(jìn)化的?
  • 同一細(xì)胞類型是否有不同的狀態(tài)?
  • 什么基因調(diào)控通路決定細(xì)胞狀態(tài)?
  • 細(xì)胞如何從一種狀態(tài)過渡到另一種狀態(tài)?
  • 哪些細(xì)胞相互溝通以確定更高層次的功能,以及它們通過哪些基因和途徑進(jìn)行溝通?

許多這些新問題在bulk時(shí)代并沒有被考慮或容易解決。除了提供回答這些重要問題的機(jī)會(huì)外,在每個(gè)樣本中測(cè)量的 細(xì)胞中細(xì)胞間的差異性或異質(zhì)性也提供了足夠的信息來構(gòu)建樣本內(nèi)或特定于輪廓的網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)描述單個(gè)生物樣本的GRN,這在bulk時(shí)代是不可能的。換句話說,利用大細(xì)胞數(shù)維的能力允許為每個(gè)樣本構(gòu)建基于其組成細(xì)胞剖面的grn,這可以用于樣本間的共識(shí)網(wǎng)絡(luò),以提高準(zhǔn)確性。

最近的scRNAseq GRN建模方法

認(rèn)識(shí)到對(duì)單細(xì)胞數(shù)據(jù)的新的GRN建模方法的需要,最近開發(fā)了許多主要基于scRNAseq數(shù)據(jù)的方法。我們根據(jù)基本的生物學(xué)問題對(duì)這些方法進(jìn)行分類(動(dòng)態(tài)建模、細(xì)胞內(nèi)網(wǎng)絡(luò)和細(xì)胞-細(xì)胞相互作用網(wǎng)絡(luò)。然后是具體的生物學(xué)假設(shè)(例如TF目標(biāo)相互作用,配體-受體相互作用)和算法(例如共表達(dá),回歸,ode,貝葉斯和布爾型),如表1所示:

Category Example methods Underlying biological assumption Algorithmic basis Advantages Limitations
Dynamic network **(extensively reviewed in refs SCNS Single-gene changes between cell transition states can inform on gene regulatory relations Boolean Does not rely on prior knowledge. Has a web UI. Resulting models are executable and can be used to make predictions Need data discretization; limit to small numbers of genes; regulatory relations need to follow Boolean rules
Dynamic network (extensively reviewed in refs) SCODE [82] TF expression dynamics (pseudo-time) and TF regulatory relations (GENEI3) ODE; Bayesian model selection Estimate relational expression efficiently using linear regression; reduction of time complexity; fast algorithm Need dimension reduction first for computing speed and memory feasibility; assumes that all cells are on the same trajectory; optimization is computationally intractable
Dynamic network (extensively reviewed in refs) GRISLI [83] Variability in scRNAseq data caused by cell cycle, states, etc. allows the inference of pseudo-time associated with each individual cell ODE Makes no restrictive assumption on the gene network structure; can consider multiple trajectories; fast algorithm Has to estimate the velocity of each individual cell using information from neighbors
Dynamic network (extensively reviewed in refs) SINCERITIES [84] Changes in the expression of a TF will alter the expression of target genes Ridge regression and partial correlation analysis Low computational complexity and able to handle large-scale data Requires scRNAseq data at multiple time points. Restricted to TFs and their targets to infer edges
Dynamic network (extensively reviewed in refs) Scribe [85] Cell ordering can be improved with time-series or cell velocity estimations RDI Outperforms other pseudo-time methods given time-series data. Can be applied to any data type if the data structure is appropriate Requires time-ordered gene expression profiles or velocity estimation from introns and exons
Dynamic network (extensively reviewed in refs) AR1MA1-VBEM [40] The cell differentiation process or response to external stimulus reveals the hierarchical structure of the transcriptome First-order autoregressive moving-average and variational Bayesian expectation-maximization Weighted interactions between genes along psuedotime. Model used accounts for noisy data Data are expressed as fold changes between timepoints/conditions or scaled by housekeeping genes
Dynamic network (extensively reviewed in refs) SCINGE [86] Learned target regulator genes can be used to assign each cell to their progress along a trajectory Granger causality Smooths irregular pseudo-times and missing expression values Near random performance for predicting targets of individual regulators
Dynamic network (extensively reviewed in refs) SoptSC [87] Similarities between whole transcriptomes of single cells can be used to order them Cells ordered by minimum paths on weighted cluster-to-cluster graph derived from cell similarity matrix Includes comprehensive single-cell workflow; leverages information from other parts of the workflow to improve performance Cannot be run with other tools, have run the full workflow to get pseudo-time inference
Within-cell or cell population network SCENIC [88] TF target-based regulation Combining TF regulatory relations (GENIE3) with TF-binding motif analysis Robust against dropouts, get a TF score for individual cells (no averaging of cells). Limited to TF-based relations
Within-cell or cell population network Pina et al. [89] TFs drive lineage commitment Odds ratio for on/off gene associations and spearmen correlation for expression levels associations Robust to dropouts Based on single-cell multiplex qRT-PCR, may be difficult to extend the method to sparse single-cell data (selected 44 genes to test)
Within-cell or cell population network Iacono et al. [90] Coexpression is regulated by TFs, cofactors, and signaling molecules which can be captured with gene–gene correlations Pearson correlation using z-score-transformed counts Can compute correlations at the single-cell level and it is robust to dropouts and noise inherent to single-cell data Networks are very dense (some have millions of significant edges)
Within-cell or cell population network PIDC [39,91] Gene regulatory information reflected in dependencies in the expression patterns of genes Partial information decomposition using gene trios Compared with correlation, captures more complicated gene dependencies Networks are influenced by data discretization, choice of mutual information estimator, method developed for sc-qPCR data, may not be extendable to higher throughput and sparser scRNAseq data
Within-cell or cell population network Jackson et al. [92] Deletion of TFs combined with experimental conditions allows for the inference of gene relationships MTL to leverage cross-dataset commonalities and incorporate prior knowledge Does not require sophisticated normalization of single-cell data or imputation. Able to combine multiple conditions/datasets for more accurate inference. TF deletions give strong causal link to affected genes Requires single-cell data with TF deletions and/or environmental perturbations
Within-cell or cell population network Wang et al. [93] Gene perturbations allow for inference of causal relationships Scoring of conditional independence test to identify optimal DAG Gives causal relationships between genes Requires interventional data. No loops allowed in DAG
Within-cell or cell population network ACTION [94] Functional identity of cells is determined by a weak, but specifically expressed set of genes which are mediated by TFs Kernel-based cell similarity and geometric approach to identify primary functions Robust to dropout and does not require averaging. Identifies functions unique to cell types Requires TFs and their targets. Only provides TF-driven networks
Within-cell or cell population network SINCERA [95] TF target-based regulation First-order conditional dependence on gene expression to construct a DAG Key TFs identified using multiple importance metrics Only considers TFs and their targets. Requires genes/TFs to be DEGs or expressed in >80% of cells
Cell–cell communication network iTALK [96] Ligand–receptor interactions Threshold ranked list of genes from two cell types for ligand–receptor pairs Allows for the inference of directionality of interaction Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell). Cannot reveal novel interactions beyond known ligand–receptor knowledge
Cell–cell communication network Zhou et al. [97] Ligand–receptor interactions Expression of ligand and corresponding receptor more than three standard deviations greater than the mean Allows for the inference of directionality of interaction Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell)
Cell–cell communication network Kumar et al. [98] Ligand–receptor interactions Product of the average expression of ligand and corresponding receptor Allows for the inference of directionality of interaction. Interaction score gives the strength of interaction (rather than just significance) Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell)
Cell–cell communication network Arneson et al. [99] Ligand to downstream signaling Coexpression of ligand genes in source cells with other genes in target cells Use secreted ligands as a guidance for directional inference between cell populations Gene expression is summarized to the cell population level and coexpression is at the sample level, requiring large sample sizes
Cell–cell communication network SoptSC [87] Ligand–receptor interactions Likelihood estimate of the interaction Cell–cell communication networkbetween two cells based on expression of the ligand, receptor, and downstream pathway target genes (including expression direction). Consensus signaling network derived from all cells in each cluster Incorporates target genes of pathways and their directionality. Computes interaction likelihood at the single-cell level and summarizes across all cells in the cluster for higher confidence Requires curation of ligand–receptor interactions and their downstream pathways
Cell–cell communication network scTensor [100] Ligand–receptor interactions Tensor decomposition with cell–cell interactions as hypergraphs Allows L–R pairs to function across multiple cell-type pairs (not restricted to a single-cell-type pair), which is more reflective of underlying biology Requires curation of ligand–receptor interactions. Averages single cells to the cell-type level

最直接的算法是共表達(dá),即一個(gè)基因與另一個(gè)基因相互作用的可能性取決于它們成對(duì)相關(guān)系數(shù)的強(qiáng)度。雖然在計(jì)算上易于處理,但這些方法中的大多數(shù)不提供方向性,而且可能推斷函數(shù)相關(guān)性而不是直接調(diào)節(jié)。更復(fù)雜的方法包括ode、布爾網(wǎng)絡(luò)和BNs,如前所述,每種方法都有其優(yōu)點(diǎn)和局限性。

  • 布爾網(wǎng)絡(luò)要求離散化基因表達(dá)值,并應(yīng)用布爾函數(shù)來描述調(diào)控相互作用,這可能導(dǎo)致過度簡(jiǎn)化。
  • 基于ode的方法使用線性、非線性或分段微分方程以連續(xù)而不是離散的方式對(duì)mRNA含量的動(dòng)態(tài)特性建模。
  • BN是一個(gè)有向無環(huán)圖(DAG),它整合了先驗(yàn)信息來指導(dǎo)其基因-基因相互作用的預(yù)測(cè),本質(zhì)上是概率性的。
  • 最后,信息論度量描述了生物實(shí)體之間的統(tǒng)計(jì)相關(guān)性,包括熵(熵是基于隨機(jī)變量的不確定性對(duì)信息進(jìn)行量化的概念)和互信息(互信息是對(duì)一個(gè)隨機(jī)變量的觀察可以告知或減少另一個(gè)隨機(jī)變量的不確定性)。這種方法產(chǎn)生了更一般的關(guān)聯(lián),允許捕獲非線性依賴,并在網(wǎng)絡(luò)推理中被普遍使用。

值得注意的是,由于新的方法正在迅速發(fā)展,不可能詳盡地記錄所有現(xiàn)有的方法。在這里,我們強(qiáng)調(diào)了單細(xì)胞GRN建模的廣泛類別,并討論了示例方法來說明這些概念,并注意到它們的優(yōu)點(diǎn)和潛在的局限性。我們還排除了基于舊的低通量單細(xì)胞平臺(tái)(如單細(xì)胞qPCR)數(shù)據(jù)開發(fā)的方法,這些方法與稀疏高通量的scRNAseq沒有相同的挑戰(zhàn)。

動(dòng)力學(xué)網(wǎng)絡(luò)

到目前為止,大多數(shù)基于scRNAseq的GRN建模方法被設(shè)計(jì)用于處理動(dòng)態(tài)細(xì)胞狀態(tài)轉(zhuǎn)換(圖1B),因?yàn)閟cRNAseq數(shù)據(jù)包含來自顯示時(shí)間動(dòng)態(tài)的異步細(xì)胞種群的信息,允許在擬(偽)時(shí)間(pseudo-time)尺度上映射細(xì)胞轉(zhuǎn)換。表達(dá)動(dòng)力學(xué)或偽時(shí)間估計(jì)的常用模型假設(shè)細(xì)胞變化(即發(fā)育、激活和失活)沿著連續(xù)曲線或理想化樹進(jìn)行,每個(gè)中間階段都很短,并通過對(duì)大量細(xì)胞的測(cè)序得到。在這些假設(shè)下,計(jì)算建模可以推斷細(xì)胞動(dòng)力學(xué)的軌跡,可以根據(jù)已知的調(diào)控關(guān)系,如TF靶標(biāo)信息、基因表達(dá)的相似性、以未成熟和成熟mRNA含量為代表的RNA速度來推導(dǎo)。但是,需要注意的是,在給定快照上同時(shí)出現(xiàn)的各種細(xì)胞狀態(tài)并不代表序列或沿襲信息推斷的實(shí)時(shí)過程。因此,加入偽時(shí)間不一定能改善GRN的構(gòu)造。

到目前為止,已經(jīng)開發(fā)了超過50種方法用于軌跡推斷來推導(dǎo)偽時(shí)間信息,這些方法之前已經(jīng)被回顧和比較過。偽時(shí)間排序?yàn)閯?dòng)態(tài)GRN建模提供了方向性和交互性信息。這種偽時(shí)間信息與上述常用的網(wǎng)絡(luò)構(gòu)造算法如correlation , ODE , Boolean , BN,信息論和其他方法相結(jié)合。許多動(dòng)態(tài)GRN方法已經(jīng)被其他人廣泛地回顧過,我們?cè)谶@里只討論不同類別中的幾個(gè)例子。

  • 一種布爾網(wǎng)絡(luò)方法,即SCNS,是基于有序細(xì)胞之間的單基因變化,細(xì)胞被離散到一個(gè)開/關(guān)的狀態(tài)。
  • 另一種方法SCODE使用線性O(shè)DE(一種假設(shè)所有細(xì)胞都在同一軌跡上的偽時(shí)間估計(jì))和基于TF的框架來建模TF動(dòng)力學(xué),捕獲基因間的調(diào)控關(guān)系。
  • 在此基礎(chǔ)上,GRISLI最近被開發(fā)出來,它使用了與SCODE類似的方法,但考慮了多個(gè)細(xì)胞軌跡,不采用網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算時(shí)間更快。GRISLI首先估計(jì)每個(gè)細(xì)胞的速度,然后解決一個(gè)稀疏回歸問題,將細(xì)胞的基因表達(dá)與其速度分布聯(lián)系起來,以估計(jì)GRN。
  • 以信息論為基礎(chǔ)的方法,SINCERITIES,利用Granger因果關(guān)系獲取方向性信息,量化每個(gè)基因表達(dá)在兩個(gè)后續(xù)(偽)時(shí)間點(diǎn)之間的時(shí)間變化。通過嶺回歸分析,利用TF表達(dá)的變化預(yù)測(cè)相應(yīng)基因在下一個(gè)時(shí)間窗口的變化,通過對(duì)每個(gè)基因?qū)Φ谋磉_(dá)進(jìn)行偏相關(guān)分析,推斷邊緣方向和符號(hào)。SCINGE還對(duì)有序單細(xì)胞數(shù)據(jù)使用基于核函數(shù)的因果回歸來預(yù)測(cè)調(diào)控因子與靶基因的相互作用,然后對(duì)回歸結(jié)果進(jìn)行聚合,對(duì)預(yù)測(cè)的相互作用進(jìn)行排序。
  • 另一種方法是PIPER,它使用局部泊松圖形建模來更有效地捕獲細(xì)胞分化過程中的網(wǎng)絡(luò)變化,并突出顯示驅(qū)動(dòng)這些變化的關(guān)鍵TFs。
  • NB推理方法,AR1MA1-VBEM(變分貝葉斯采用),應(yīng)用一階自回歸移動(dòng)平均(AR1MA1)模型適合代表觀測(cè)時(shí)間序列的線性模型的組合數(shù)據(jù)前面的計(jì)算和噪聲項(xiàng),并使用一個(gè)問題的框架,利用變分法來優(yōu)化網(wǎng)絡(luò)模型的邊際似然和后驗(yàn)分布。
  • Scribe是另一種最近發(fā)展起來的方法,它使用限制性定向信息(RDI),通過引用相關(guān)的時(shí)間序列數(shù)據(jù)或從內(nèi)含子(指示未成熟RNA)和外顯子讀子中推斷細(xì)胞速度來推斷因果grn。作者證明當(dāng)有真實(shí)的時(shí)間序列數(shù)據(jù)時(shí),Scribe優(yōu)于其他偽時(shí)間方法;然而,當(dāng)測(cè)量的時(shí)間信息丟失時(shí),所有方法的性能都會(huì)受到極大影響。有趣的是,Deshpande等人最近對(duì)各種方法進(jìn)行了比較,發(fā)現(xiàn)加入偽時(shí)間并不一定會(huì)帶來更好的性能,但在某些情況下會(huì)損害網(wǎng)絡(luò)重建。如前所述,這可能是由于偽時(shí)間方法的假設(shè)存在問題造成的。
細(xì)胞內(nèi)網(wǎng)絡(luò)

第二類方法側(cè)重于在不考慮細(xì)胞軌跡或動(dòng)力學(xué)的情況下對(duì)細(xì)胞內(nèi)群體的grn進(jìn)行建模。這些方法包括共表達(dá)和基于tf的方法、共表達(dá)和不依賴tf的方法以及信息論方法(表1和圖1B)。這符合組織基因-基因相互作用GRN建模的基本概念,除了這里為特定細(xì)胞群建模的單細(xì)胞數(shù)據(jù)。

與動(dòng)態(tài)網(wǎng)絡(luò)建模相似,對(duì)細(xì)胞內(nèi)群體建模的最簡(jiǎn)單方法是基于共表達(dá)。在這里,共表示方法分為兩組:利用TFs形式的先驗(yàn)信息的方法和不利用TFs形式的方法。對(duì)于與tf無關(guān)的方法,一個(gè)基因與另一個(gè)基因相互作用的可能性取決于它們成對(duì)相關(guān)系數(shù)的強(qiáng)度,并考慮了所有可能的基因?qū)ΑT诨趖f的方法中,根據(jù)與不同TFs的成對(duì)相關(guān)系數(shù)最強(qiáng)的基因分組到模塊中,或者根據(jù)之前的文獻(xiàn)或motif證據(jù)分離到潛在的相互作用。定義細(xì)胞內(nèi)grn的一種更復(fù)雜的方法是部分信息分解,它可以捕獲非線性的基因依賴性。在這里,由一對(duì)基因提供的信息被用來量化所有三組基因中關(guān)于第三個(gè)基因的獨(dú)特的、共享的和協(xié)同的信息,從而推斷出一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。

幾種基于相關(guān)的方法已經(jīng)被開發(fā)出來,用來比較已知或預(yù)測(cè)的TFs與靶基因或所有基因之間的基因表達(dá)模式。例如,

  • 通過對(duì)共表達(dá)基因模塊進(jìn)行帶有TF結(jié)合基序的SCENIC couples基因共表達(dá)分析,以識(shí)別GRN模塊,預(yù)測(cè)TF調(diào)節(jié)因子,并識(shí)別假定的TF靶標(biāo)(稱為調(diào)節(jié)因子)的單細(xì)胞水平活性。這些調(diào)節(jié)因子的活性可用于群集細(xì)胞類型,比較網(wǎng)絡(luò)保護(hù),并確定參與疾病的重要細(xì)胞狀態(tài)和grn。
  • 另一種方法是使用完整的分析管道來處理scRNAseq數(shù)據(jù)。它首先識(shí)別每個(gè)細(xì)胞類型的候選TFs和它們的靶標(biāo)。然后利用基因表達(dá)的一階條件依賴性來確定兩個(gè)或一個(gè)轉(zhuǎn)錄因子與目標(biāo)基因之間的相互作用,并通過整合六個(gè)不同節(jié)點(diǎn)重要性指標(biāo)來確定每個(gè)GRN中的關(guān)鍵轉(zhuǎn)錄因子。
  • 其他的coexpression-based GRN方法,使用一個(gè)細(xì)胞類型特異的GRN正交化方法構(gòu)建基于細(xì)胞的功能標(biāo)識(shí)的關(guān)鍵假設(shè)是由一組弱,但具體表達(dá)基因介導(dǎo)的一組TFs。
  • ACTION將每個(gè)細(xì)胞描述為高維空間中的一組“細(xì)胞函數(shù)”,這些函數(shù)的數(shù)量使用非參數(shù)方法確定。使用正交化法確定每種細(xì)胞功能所特有的基因,并評(píng)估TFs在控制這些細(xì)胞功能基因中的作用。細(xì)胞內(nèi)的TF和相關(guān)靶基因構(gòu)成了這個(gè)網(wǎng)絡(luò)。

Pina等和最近的Iacono等也利用共表達(dá)構(gòu)建了不限于TF目標(biāo)關(guān)系的全局GRNs。前者計(jì)算一個(gè)細(xì)胞類型內(nèi)所有細(xì)胞間的Spearman等級(jí)(rank)相關(guān)性,以推斷造血過程中的細(xì)胞型GRNs,并利用線性轉(zhuǎn)化表達(dá)數(shù)據(jù)的比值比確定顯著的成對(duì)關(guān)聯(lián)。Iacono等人使用了一種基于皮爾遜相關(guān)的方法,該方法首先使用bigSCale轉(zhuǎn)換表達(dá)值,使用概率模型推導(dǎo)出每個(gè)基因的z分?jǐn)?shù),以考慮單細(xì)胞數(shù)據(jù)固有的噪音和變異性。利用z得分的兩兩相關(guān)關(guān)系來構(gòu)建grn。z分?jǐn)?shù)的使用增加了顯著的基因?qū)虻南嚓P(guān)性。

為了揭示簡(jiǎn)單的相關(guān)策略所不能提供的復(fù)雜的基因依賴關(guān)系,GRN推理方法采用了信息論的技術(shù)。具體來說,PIDC使用部分信息分解,在所有其他可能的基因中找到任何一對(duì)兩個(gè)基因所提供的唯一信息。這種多元信息的方法利用第三個(gè)基因之間的依賴關(guān)系識(shí)別非線性雙基因關(guān)系。

細(xì)胞通信網(wǎng)絡(luò)

一個(gè)給定的異質(zhì)組織的基本功能不僅由組織內(nèi)不同細(xì)胞類型的活動(dòng)決定,而且由細(xì)胞群體之間密切的溝通和協(xié)調(diào)決定。例如,神經(jīng)元和星形膠質(zhì)細(xì)胞相互作用以保證大腦的基本功能,免疫細(xì)胞與脂肪組織中的脂肪細(xì)胞相互作用以調(diào)節(jié)能量代謝和產(chǎn)熱。因此,細(xì)胞-細(xì)胞間的通訊是一個(gè)關(guān)鍵的生物學(xué)問題,但由于之前缺乏高通量、高分辨率的單細(xì)胞數(shù)據(jù)而尚未得到全面的解決。單細(xì)胞方法同時(shí)捕獲多種細(xì)胞類型的獨(dú)特能力,使得建立細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型成為可能。建立這種網(wǎng)絡(luò)模型的基本假設(shè)是,細(xì)胞之間的通信可以通過測(cè)量單個(gè)細(xì)胞群體的分子模式來捕獲。例如,一對(duì)相互聯(lián)系的細(xì)胞可能以協(xié)調(diào)的方式表達(dá)參與特定功能的基因和蛋白質(zhì)(例如,一個(gè)細(xì)胞表達(dá)配體,另一個(gè)細(xì)胞表達(dá)相應(yīng)的受體,以觸發(fā)信號(hào)通路)。

早期對(duì)細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型的嘗試主要是基于基因共同表達(dá)的概念,無論是否考慮配體-受體的相互作用信息。潛在的假設(shè)是細(xì)胞之間的基因相關(guān)模式反映了真實(shí)的生物相互作用。在組織-組織相互作用的水平上,已有證據(jù)支持這一假設(shè)的有效性。例如,腦區(qū)域間的基因共表達(dá)可以概括出小鼠腦連接體功能衍生的相互作用,5種不同小鼠組織間的基因共表達(dá)揭示了介導(dǎo)溝通的新內(nèi)分泌因子,這些新因子隨后被實(shí)驗(yàn)驗(yàn)證。

當(dāng)Han等人基于不同細(xì)胞類型的基因表達(dá)譜的相似性建立細(xì)胞-細(xì)胞連接時(shí),共表達(dá)方法迅速適用于單細(xì)胞數(shù)據(jù)。然而,這些網(wǎng)絡(luò)更有可能反映細(xì)胞類型之間的相似性,而不是相互作用或通信。為了修改經(jīng)典的共表達(dá)框架,基于配體和受體的方法已經(jīng)被提出,它依賴于這樣的假設(shè):細(xì)胞間通信的重要部分是通過釋放化學(xué)分子從一個(gè)細(xì)胞結(jié)合到另一個(gè)細(xì)胞的受體。利用這個(gè)假設(shè)允許基于配體受體的方法來構(gòu)建可靠的基于生物的定向網(wǎng)絡(luò)。然而,這樣做的代價(jià)是在固有的稀疏數(shù)據(jù)模式中嚴(yán)重限制了潛在基因的集合。值得注意的是,基于共表達(dá)的分析通常使用皮爾遜相關(guān)系數(shù),由于零膨脹的性質(zhì)和獨(dú)特的分布模式,皮爾遜相關(guān)系數(shù)可能不適用于基于讀取的單細(xì)胞數(shù)據(jù)集。在對(duì)單細(xì)胞數(shù)據(jù)使用基于共表達(dá)的分析時(shí),重要的是要考慮數(shù)據(jù)轉(zhuǎn)換和適當(dāng)?shù)慕y(tǒng)計(jì)。

有幾種方法說明了通過配體-受體相互作用的細(xì)胞-細(xì)胞通信。

  • Zhou等人編制了一份>25000對(duì)已知配體受體的清單,以檢測(cè)它們?cè)陉P(guān)于4000個(gè)黑色素瘤細(xì)胞的轉(zhuǎn)錄組中的變化。為了確定一對(duì)細(xì)胞是否在交流,配體和相應(yīng)的受體必須在這兩種細(xì)胞中表達(dá)超過一定的可調(diào)閾值。
  • 類似地,Kumar等人關(guān)注的是基于約1800文獻(xiàn)的配體-受體對(duì),但采用了不同的評(píng)分方案,考慮了各自被測(cè)細(xì)胞類型中平均受體表達(dá)和平均配體表達(dá)的產(chǎn)物。
  • iTALK是另一種新的基于配體-受體交互的網(wǎng)絡(luò)構(gòu)建方法,它被移植為帶有數(shù)據(jù)可視化工具的R包。對(duì)于每一個(gè)細(xì)胞類型和iTALK數(shù)據(jù)庫中的配體對(duì),iTALK標(biāo)識(shí)中的配體-受體對(duì)(> 2600對(duì))兩個(gè)細(xì)胞類型之間通過詢問排名列表基因來源于平均差異表達(dá)基因(單一的計(jì)算/條件)或(多個(gè)時(shí)間點(diǎn)/條件)。此外,iTALK還能夠使用元數(shù)據(jù)(例如,時(shí)間點(diǎn)、組和群組)通過識(shí)別不同表達(dá)的配體-受體對(duì)來發(fā)現(xiàn)細(xì)胞-細(xì)胞相互作用的變化。
  • 類似地,Smillie等人使用了FANTOM5數(shù)據(jù)庫中數(shù)千篇支持文獻(xiàn)的受體-配體相互作用來識(shí)別細(xì)胞-細(xì)胞相互作用,要求基因是細(xì)胞標(biāo)記基因或差異表達(dá)基因來表示細(xì)胞間的重要相互作用。
  • 在大多數(shù)配體-受體方法中,配體-受體對(duì)僅限于細(xì)胞類型;然而,在scTensor中,Tsuyuzaki等人采用了更靈活的方法,不存在此類限制。在scTensor中,細(xì)胞-細(xì)胞相互作用被表示為超圖,超圖描述了用張量分解確定的配體-受體對(duì)的有向邊。
  • Vento-Tormo等人最近提出的一種方法也考慮了分泌分子和細(xì)胞表面分子,并使用基于置換的方法來尋找細(xì)胞類型之間豐富的配體-受體對(duì)。為了實(shí)現(xiàn)這一點(diǎn),作者開發(fā)了CellPhoneDB,一個(gè)配體-受體相互作用的公共知識(shí)庫,由蛋白質(zhì)-蛋白質(zhì)相互作用的公共資源管理,其中包括配體和受體的亞基組成,以充分表達(dá)它們的相互作用。對(duì)于由多個(gè)亞基組成的蛋白質(zhì),需要表達(dá)所有亞基才能推斷出準(zhǔn)確的相互作用。

上述方法都只專注于配體-受體對(duì),這依賴于假定的基因,使其局限于一組可通知細(xì)胞-細(xì)胞通訊的基因?qū)Α4饲埃环N限制較少的建模方法已經(jīng)被開發(fā)出來,該方法基于編碼源組織分泌肽和靶組織中所有基因的共同表達(dá),來解剖組織-組織通信網(wǎng)絡(luò)。Arneson等人采用這一概念,在假小鼠和腦外傷小鼠的海馬中構(gòu)建細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)圖,揭示了腦損傷中廣泛的網(wǎng)絡(luò)重新布線。這種方法推斷出細(xì)胞之間的聯(lián)系,其基礎(chǔ)是假設(shè)一個(gè)細(xì)胞通過分泌信號(hào)分子與另一個(gè)細(xì)胞通訊,這些信號(hào)分子與靶細(xì)胞上的受體結(jié)合,從而觸發(fā)靶細(xì)胞的下游分子事件。因此,可能在源細(xì)胞類型中編碼分泌信號(hào)分子(即配體)的基因與受體以及靶細(xì)胞類型的下游通路基因之間存在共表達(dá)。通過考慮細(xì)胞類型之間所有表達(dá)基因的模式,其他方法可以將細(xì)胞-細(xì)胞相互作用的范圍擴(kuò)展到基于配體-受體的關(guān)系之外,盡管對(duì)這種方法的生物學(xué)解釋不是那么直接。

綜合的方法

wang et al提出了SoptSC,一個(gè)統(tǒng)一的框架來進(jìn)行單細(xì)胞分析從基因表達(dá)矩陣基本分析工作流(如標(biāo)準(zhǔn)化、集群、降維,并確定細(xì)胞標(biāo)記基因),隨后推斷信息交流網(wǎng)絡(luò)和pseudotemporal。SoptSC的關(guān)鍵前提是結(jié)構(gòu)化的細(xì)胞間相似度矩陣有助于改進(jìn)網(wǎng)絡(luò)推理步驟。相似矩陣也被用于偽時(shí)間排序,在加權(quán)簇到簇圖中尋找細(xì)胞之間的最短路徑。為了推斷細(xì)胞-細(xì)胞信號(hào)網(wǎng)絡(luò),根據(jù)配體-受體對(duì)的表達(dá)和下游通路靶基因的方向來計(jì)算兩個(gè)細(xì)胞間相互作用的可能性估計(jì)值。通過總結(jié)任意兩種細(xì)胞類型的所有細(xì)胞之間的信號(hào)轉(zhuǎn)導(dǎo)概率,就可以形成一個(gè)集群/細(xì)胞類型之間的一致網(wǎng)絡(luò)。

基因擾動(dòng)網(wǎng)絡(luò)

上述方法都是利用TF級(jí)聯(lián)、配體-受體關(guān)系等信息流假設(shè),沒有直接的因果信息。含有基因擾動(dòng)信息的單細(xì)胞數(shù)據(jù)對(duì)于提供GRN構(gòu)建的因果信息極為有用,因?yàn)橐粋€(gè)基因的靶向擾動(dòng)是其他基因下游反應(yīng)的來源或觸發(fā)器。Jackson等人提出了利用基因缺失突變體的方法。具體地說,他們匯集了橫跨12種不同基因型(TF缺失)和11種不同條件的72種不同酵母株,生成了38000個(gè)細(xì)胞的scRNAseq數(shù)據(jù)。除了表達(dá)數(shù)據(jù),該方法使用來自TF目標(biāo)和生物物理參數(shù)(如TF活性和mRNA衰減率)的先驗(yàn)信息,使用多任務(wù)學(xué)習(xí)(MTL)框架構(gòu)建GRN。這允許在不同的條件和實(shí)驗(yàn)中整合信息,以解釋TF擾動(dòng)和觀察到的基因表達(dá)變化之間的關(guān)系。通過直接刪除TFs,作者創(chuàng)建了一個(gè)有價(jià)值的數(shù)據(jù)集,可以作為其他單細(xì)胞網(wǎng)絡(luò)推理方法的有用基準(zhǔn)。Wang等人提出了一種推斷因果DAGs的算法。將CRISPR/ cas9介導(dǎo)的基因擾動(dòng)與單細(xì)胞測(cè)序相結(jié)合,生成高通量的介入基因表達(dá)數(shù)據(jù)。該算法基于貪心SP來限制基于置換的DAG搜索空間,利用貪心干涉等價(jià)搜索來評(píng)估潛在的網(wǎng)絡(luò)分?jǐn)?shù)。為了進(jìn)一步擴(kuò)展因果網(wǎng)絡(luò)推理的研究,Wang等人引入了一種方法,可以識(shí)別從不同數(shù)據(jù)集推導(dǎo)出的DAGs之間的差異。同一組也表明,軟干預(yù)用于Perturb-seq,比如那些導(dǎo)致局部破壞的基因相關(guān)性(例如RNAi或CRISPR-mediated基因激活),提供相同數(shù)量的因果信息困難的干預(yù)(例如CRISPR / Cas9-mediated基因刪除),導(dǎo)致完全中斷,盡管只是輕微擾動(dòng)。

單細(xì)胞GRN建模方法的性能評(píng)估

Chen和Mar最近將一些單細(xì)胞網(wǎng)絡(luò)建模方法,包括SCENIC、SCODE和PIDC,應(yīng)用于模擬和經(jīng)驗(yàn)的單細(xì)胞數(shù)據(jù)集,以評(píng)估其捕獲已知網(wǎng)絡(luò)交互的能力。他們發(fā)現(xiàn)這些方法之間的一致性很低。然而,由于每一種方法都有獨(dú)特的假設(shè),并且可能不被設(shè)計(jì)來捕捉類似的交互作用,因此方法之間的一致并不一定適合于評(píng)估性能。另一項(xiàng)比較研究考察了包含偽時(shí)間信息的多種網(wǎng)絡(luò)推理方法(如SCINGE、SCODE和SINCERITIES)的性能,也表明許多調(diào)節(jié)目標(biāo)預(yù)測(cè)對(duì)于每一種被測(cè)試的方法都可以接近隨機(jī)。

這些發(fā)現(xiàn)需要對(duì)單細(xì)胞網(wǎng)絡(luò)建模方法進(jìn)行改進(jìn),并對(duì)現(xiàn)有的單細(xì)胞GRN方法的性能進(jìn)行全面評(píng)估。另一方面,由生物學(xué)假設(shè)和數(shù)據(jù)驅(qū)動(dòng)的基因共同表達(dá)驅(qū)動(dòng)的配體-受體框架似乎在細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)建模中很有前景。例如,用這種方法對(duì)scRNAseq數(shù)據(jù)進(jìn)行建模,再現(xiàn)了海馬體內(nèi)已知的細(xì)胞-細(xì)胞相互作用。

理想與現(xiàn)實(shí)之間

單細(xì)胞多組學(xué)分析技術(shù)正在迅速發(fā)展,帶來革命性的力量以提高我們對(duì)生命的基本單位----細(xì)胞-----以及在生理和病理?xiàng)l件下細(xì)胞之間的綜合了解。在更準(zhǔn)確地分類細(xì)胞類型、糾正混雜因素、描述細(xì)胞譜系和細(xì)胞狀態(tài)轉(zhuǎn)變等方面取得了重大進(jìn)展。然而,這些進(jìn)展還不足以使我們完全理解個(gè)體細(xì)胞群功能的調(diào)節(jié)機(jī)制,以及決定更高水平組織功能的細(xì)胞-細(xì)胞相互作用。現(xiàn)有方法模型基因網(wǎng)絡(luò)優(yōu)化的主要組織數(shù)據(jù)為單細(xì)胞數(shù)據(jù)表現(xiàn)不佳或不能適應(yīng)新的生物單細(xì)胞數(shù)據(jù),帶來的問題和方法,有效地和精確地模型流出單細(xì)胞數(shù)據(jù)到全面的RGNS的圖譜還在初級(jí)階段。特別是,目前仍急需新的網(wǎng)絡(luò)方法來解決單細(xì)胞數(shù)據(jù)的獨(dú)特挑戰(zhàn),如數(shù)據(jù)稀疏性、多模態(tài)分布和更高維數(shù)。數(shù)據(jù)稀疏性問題可以通過改進(jìn)單細(xì)胞技術(shù)來增強(qiáng)信號(hào)捕獲,或者通過更精確的注入方法來解決,這些方法得到了強(qiáng)有力的實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)的支持。這些努力將有助于緩解與非標(biāo)準(zhǔn)數(shù)據(jù)分布相關(guān)的問題,這些問題限制了現(xiàn)有網(wǎng)絡(luò)方法的使用。另外,建立在更合適的統(tǒng)計(jì)數(shù)據(jù)和算法上的方法可以更好地適應(yīng)dropout值和獨(dú)特的數(shù)據(jù)分布,這是有必要的。

在單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建模中,另一個(gè)重要但不太突出的缺陷是缺少空間信息來約束建模空間。目前許多高通量的單細(xì)胞測(cè)序方法缺乏保持單個(gè)細(xì)胞的空間身份的能力,這降低了準(zhǔn)確解析細(xì)胞網(wǎng)絡(luò)的能力,特別是在開發(fā)階段。各種高通量熒光原位雜交(FISH)方法已被開發(fā)為解決空間信息的工具。假設(shè)細(xì)胞間的距離越近,就越有可能進(jìn)行通信,可以利用成對(duì)單細(xì)胞間的空間距離作為建立更復(fù)雜、更準(zhǔn)確的網(wǎng)絡(luò)模型的先驗(yàn)。最近發(fā)現(xiàn),產(chǎn)生配體的細(xì)胞與表達(dá)相應(yīng)受體的靶細(xì)胞直接相鄰,這一假設(shè)得到了支持。基于單分子魚的方法的另一個(gè)關(guān)鍵優(yōu)勢(shì)是,它們是非常定量的,并且不會(huì)出現(xiàn)中斷,而這種中斷會(huì)困擾基于高通量單細(xì)胞測(cè)序方法。在空間單細(xì)胞方法中,也可以將表型(即行為)與細(xì)胞激活(即cFos)結(jié)合,在假設(shè)特定表型或刺激中活躍的細(xì)胞更有可能進(jìn)行交流的前提下,整合到模型中。此前,Moffitt等人曾使用這種方法來識(shí)別在養(yǎng)育過程中激活的神經(jīng)元。因此,將單細(xì)胞測(cè)序方法與高通量單分子成像相結(jié)合,在提高單細(xì)胞分辨率下的網(wǎng)絡(luò)建模方面具有巨大潛力。盡管有潛力,但使用空間數(shù)據(jù)構(gòu)建GRNs仍存在局限性和復(fù)雜性。首先,基于單分子fish方法的細(xì)胞分割是非平凡的,沒有它GRN的構(gòu)建是不可能的。此外,單個(gè)圖像承載有限的動(dòng)態(tài)細(xì)胞景觀表示。事實(shí)上,許多這些技術(shù)只能實(shí)現(xiàn)單個(gè)細(xì)胞的成像深度,因此它本質(zhì)上是一個(gè)給定時(shí)間的二維快照,可能無法捕捉到在成像平面和時(shí)間框架之外的細(xì)胞動(dòng)態(tài)。

目前,大多數(shù)方法都是為scRNAseq設(shè)計(jì)的,需要結(jié)合其他單細(xì)胞組學(xué)指標(biāo)(遺傳、表觀遺傳和蛋白質(zhì))的方法。這與大組織GRN推斷所面臨的挑戰(zhàn)相同,而多組學(xué)集成和建模的最新進(jìn)展可能為單細(xì)胞多組學(xué)建模提供指導(dǎo)。

最后,從經(jīng)驗(yàn)數(shù)據(jù)中預(yù)測(cè)的網(wǎng)絡(luò)的準(zhǔn)確性很難評(píng)估,因?yàn)橥ㄟ^在體內(nèi)單個(gè)細(xì)胞中干擾預(yù)測(cè)的調(diào)節(jié)因子進(jìn)行高通量驗(yàn)證比進(jìn)行全身敲除或敲除更具挑戰(zhàn)性。值得肯定的是,新的高通量基因干擾技術(shù),如Perturb-seq 與scRNAseq的結(jié)合,有可能深入了解基因和細(xì)胞之間的真正關(guān)系。來自這些平臺(tái)的數(shù)據(jù)可以作為更合適的基準(zhǔn)數(shù)據(jù)集,通過測(cè)試每種方法檢索擾動(dòng)-響應(yīng)實(shí)驗(yàn)中已知的真實(shí)調(diào)節(jié)關(guān)系或交互關(guān)系的效果,來評(píng)估現(xiàn)有網(wǎng)絡(luò)方法的預(yù)測(cè)。同樣,利用文獻(xiàn)中已知的、經(jīng)過實(shí)驗(yàn)驗(yàn)證的基因-基因、細(xì)胞-細(xì)胞通路可以作為這些方法的基準(zhǔn)。即使在沒有經(jīng)過驗(yàn)證的網(wǎng)絡(luò)連接的情況下,也可以采用基于社區(qū)的方法,通過結(jié)合多種方法推斷出的多個(gè)網(wǎng)絡(luò)來獲得一致的網(wǎng)絡(luò),從而提高網(wǎng)絡(luò)性能。這種方法已經(jīng)被證明對(duì)提高預(yù)測(cè)網(wǎng)絡(luò)的質(zhì)量非常有價(jià)值。

總而言之,我們正在進(jìn)入一個(gè)黃金時(shí)代,在這個(gè)時(shí)代,生物發(fā)現(xiàn)可以以前所未有的分辨率和通量進(jìn)行。單細(xì)胞多組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)建模是解開病理生理學(xué)背后復(fù)雜的分子機(jī)制和指導(dǎo)精準(zhǔn)醫(yī)療的關(guān)鍵工具之一。盡管面臨諸多挑戰(zhàn),但該領(lǐng)域正在迅速發(fā)展,方法創(chuàng)新的大量機(jī)會(huì)等待著更準(zhǔn)確地描繪健康和疾病細(xì)胞的分子圖譜。

<單細(xì)胞時(shí)代 · 2021春節(jié)系列> 是參考學(xué)術(shù)或媒體文章整理而來,個(gè)人水平有限,錯(cuò)訛難免,還請(qǐng)讀者諸君批評(píng)指正。內(nèi)容均為個(gè)人觀點(diǎn),不代表任何單位,也不構(gòu)成就業(yè)或投資建議,圖片來自網(wǎng)絡(luò),侵刪。


https://portlandpress.com/emergtoplifesci/article/3/4/379/219702/Network-modeling-of-single-cell-omics-data

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容