前情回顧:
單細(xì)胞時(shí)代 || 細(xì)胞身份概念的演變
單細(xì)胞時(shí)代 || 從眾病之王到希望之光
單細(xì)胞時(shí)代 || 宿主-微生物組相互作用
Network modeling of single-cell omics data: challenges, opportunities, and progresses
這不是最好的時(shí)代,也不是最壞的時(shí)代,這里是單細(xì)胞時(shí)代。靈活的單細(xì)胞系統(tǒng),高效的組織解離液,開源的數(shù)據(jù)分析工具,端到端的單細(xì)胞解決方案是未來發(fā)展的趨勢(shì)。這里最主要的是開放靈活的單細(xì)胞系統(tǒng),有了這個(gè)系統(tǒng)我們就可以自主地設(shè)計(jì)反應(yīng)體系,來從不同緯度捕獲單個(gè)細(xì)胞的信息。
單細(xì)胞多組學(xué)技術(shù)正在以前所未有的速度促進(jìn)方法的進(jìn)步和生物學(xué)發(fā)現(xiàn)。基因調(diào)控網(wǎng)絡(luò)建模已被用于闡明生物過程和背后的復(fù)雜分子相互作用,但在單細(xì)胞組學(xué)數(shù)據(jù)建模中的應(yīng)用遇到了獨(dú)特的挑戰(zhàn)和機(jī)遇。在這篇綜述中,我們討論了這些挑戰(zhàn)和機(jī)遇,并提供了網(wǎng)絡(luò)建模方法的最新發(fā)展概況,這些方法設(shè)計(jì)用于描述
- 動(dòng)態(tài)網(wǎng)絡(luò)
- 細(xì)胞內(nèi)網(wǎng)絡(luò)
- 細(xì)胞間交互或通信網(wǎng)絡(luò)
在數(shù)據(jù)科學(xué)中,我們主要目標(biāo)是元素的對(duì)象和屬性及其之間的關(guān)系。在單細(xì)胞數(shù)據(jù)科學(xué)中,上游是在描述元素,如細(xì)胞的特性或基因的表達(dá)量,下游往往是描述細(xì)胞之間或基因之間的關(guān)系。網(wǎng)絡(luò)是解析關(guān)系的有利工具。
網(wǎng)絡(luò)建模長(zhǎng)期以來被用作理解和解釋復(fù)雜生物系統(tǒng)的強(qiáng)大工具,網(wǎng)絡(luò)本身既是計(jì)算框架又是主要的數(shù)據(jù)類型。生物系統(tǒng)網(wǎng)絡(luò)描述為節(jié)點(diǎn)和邊,節(jié)點(diǎn)代表生物實(shí)體如基因、蛋白質(zhì)、代謝物,表型特征,細(xì)胞,環(huán)境暴露,甚至腸道細(xì)菌;邊代表如regulator-effector連接節(jié)點(diǎn)之間的關(guān)系,統(tǒng)計(jì)相關(guān)性,物理結(jié)合,酶或代謝反應(yīng)(圖1)。
隨著生物數(shù)據(jù)的數(shù)量和類型持續(xù)以指數(shù)速度增長(zhǎng),生物網(wǎng)絡(luò)的數(shù)量和類型也在增長(zhǎng),包括蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)、遺傳相互作用網(wǎng)絡(luò)、基因/轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)(GRNs)、細(xì)胞信號(hào)網(wǎng)絡(luò)。雖然不同的網(wǎng)絡(luò)模型根據(jù)其基本假設(shè)具有固有的優(yōu)勢(shì)和局限性,但它們都具有圖形化模型的共同特征,即描述生物系統(tǒng)中的信息流,以幫助理解和解釋基本的生物過程。
在過去的幾十年里,網(wǎng)絡(luò)建模被廣泛應(yīng)用于幫助理解關(guān)鍵的生物過程和健康和疾病的調(diào)節(jié)。特別是,人類生理和病理生理學(xué)的巨大復(fù)雜性要求在系統(tǒng)水平上理解生物分子如何在單個(gè)細(xì)胞和組織內(nèi)相互作用,細(xì)胞和組織之間如何相互作用以維持體內(nèi)平衡,以及這些相互作用的干擾如何導(dǎo)致疾病。omnigenic disease模型指出,網(wǎng)絡(luò)中所有基因的相互作用都可能導(dǎo)致復(fù)雜疾病,該模型正日益被人們所認(rèn)可和接受。這些概念框架完全符合網(wǎng)絡(luò)生物學(xué),因此,在生物學(xué)的所有領(lǐng)域中,網(wǎng)絡(luò)建模方法的使用越來越多也就不足為奇了。
例如,許多遺傳變異可以影響疾病,每一種變異都通過很小的影響使生物學(xué)解釋變得困難。這些復(fù)雜的遺傳效應(yīng)可以通過它們?cè)谵D(zhuǎn)錄、信號(hào)網(wǎng)絡(luò)和生物途徑中的關(guān)系來更好地理解。我們的團(tuán)隊(duì)和其他人已經(jīng)利用網(wǎng)絡(luò)模型來解釋復(fù)雜疾病的遺傳原因。類似地,網(wǎng)絡(luò)可以用來了解與各種環(huán)境引起的疾病有關(guān)的分子級(jí)聯(lián)。例如,Chella Krishnan等人通過整合組織特異性GRNs的遺傳關(guān)聯(lián),發(fā)現(xiàn)與非酒精性脂肪肝相關(guān)的大量遺傳變異影響多種生物途徑,包括脂質(zhì)代謝、免疫系統(tǒng)、細(xì)胞周期、轉(zhuǎn)錄調(diào)節(jié)、胰島素信號(hào)、Notch信號(hào)和氧化磷酸化,這些途徑在肝臟和脂肪組織的GRNs中相互作用。
基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),他們確定了疾病通路和亞網(wǎng)絡(luò)中心參與線粒體功能的關(guān)鍵調(diào)節(jié)因子。在另一項(xiàng)研究中,利用組織特異性GRNs對(duì)心血管疾病和2型糖尿病的遺傳風(fēng)險(xiǎn)進(jìn)行網(wǎng)絡(luò)建模,揭示了共享的和疾病特異性的網(wǎng)絡(luò)和調(diào)節(jié)因子。格林等建造144組織特異性網(wǎng)絡(luò)和使用這些網(wǎng)絡(luò)來預(yù)測(cè)和理解lineage-specific IL1B刺激的反應(yīng)。
雖然基于網(wǎng)絡(luò)的方法促進(jìn)了我們對(duì)復(fù)雜疾病的理解,但需要注意的是,大多數(shù)網(wǎng)絡(luò)方法和應(yīng)用主要依賴于從bulk組織中獲得的組學(xué)數(shù)據(jù)。在組織水平上,已經(jīng)開發(fā)了許多用于網(wǎng)絡(luò)建模的方法和算法,主要關(guān)注于預(yù)測(cè)組織內(nèi)和組織間的GRNs,并具有合理的準(zhǔn)確性。然而,肝臟的非實(shí)質(zhì)細(xì)胞等組織是由包括庫普弗細(xì)胞、竇狀內(nèi)皮細(xì)胞和肝細(xì)胞衛(wèi)星細(xì)胞在內(nèi)的異質(zhì)細(xì)胞群組成的,它們都具有與獨(dú)特的基因調(diào)控譜相關(guān)的獨(dú)特功能。考慮到組織的異質(zhì)性,組織網(wǎng)絡(luò)主要代表了所有細(xì)胞群的平均活動(dòng),這些細(xì)胞群可以由最豐富的細(xì)胞類型所控制。因此,組織網(wǎng)絡(luò)無法捕捉單個(gè)細(xì)胞群的獨(dú)特行為,以及細(xì)胞如何相互作用來執(zhí)行更高層次的組織功能。
最近的高通量單細(xì)胞組學(xué)技術(shù)的爆炸帶來了令人興奮的可能性,包括但不限于動(dòng)力模型,內(nèi)部和細(xì)胞間的基因網(wǎng)絡(luò),以闡明背后的過程,細(xì)胞發(fā)育,功能狀態(tài)和細(xì)胞-細(xì)胞通訊,而這些不可能在bulk水平獲得。這些單細(xì)胞組學(xué)技術(shù)給了我們前所未有的能力以檢查轉(zhuǎn)錄,蛋白質(zhì)和表觀基因組的概況在單細(xì)胞解決,在調(diào)節(jié)和功能關(guān)系的生物分子在單個(gè)細(xì)胞或細(xì)胞類型以及細(xì)胞群之間。在理論上,類似的框架和方法已經(jīng)被用于組織網(wǎng)絡(luò)建模,可以擴(kuò)展到單細(xì)胞數(shù)據(jù),以揭示調(diào)控細(xì)胞內(nèi)部和細(xì)胞之間的功能的調(diào)節(jié)機(jī)制。然而,正如Chen和Mar在他們最近的研究中所指出的,bulk組織模型可能不太適合克服單細(xì)胞數(shù)據(jù)帶來的獨(dú)特挑戰(zhàn)。
在此,我們將討論為bulk組織組學(xué)數(shù)據(jù)開發(fā)的現(xiàn)有網(wǎng)絡(luò)建模方法,使用單細(xì)胞組學(xué)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)建模所面臨的獨(dú)特挑戰(zhàn),利用單細(xì)胞數(shù)據(jù)建立網(wǎng)絡(luò)模型的方法的最新發(fā)展及其關(guān)鍵的底層算法優(yōu)缺點(diǎn)。最后,我們討論了有待克服的問題以及我們認(rèn)為該領(lǐng)域?qū)⒃谀男┓矫鎸?shí)現(xiàn)基于單細(xì)胞組學(xué)數(shù)據(jù)的更高效、更準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)建模。
bulk組織數(shù)據(jù)GRN建模方法
針對(duì)bulk組織數(shù)據(jù)開發(fā)和優(yōu)化的常見GRN方法通常基于相關(guān)、回歸、常微分方程(ode)、互信息、高斯圖形模型和貝葉斯方法。例如:
- 基于相關(guān)關(guān)系的加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)是最常用的方法。WGCNA用于發(fā)現(xiàn)高度相關(guān)的基因簇(或模塊),這些基因通常代表參與類似生物途徑或功能的受到嚴(yán)格調(diào)控的基因。雖然基于共表達(dá)的方法計(jì)算效率高,且較少依賴于假設(shè),但這些方法主要對(duì)功能相似或調(diào)控相似的基因進(jìn)行分組,但不能推斷出方向性或直接的調(diào)控關(guān)系,需要整合其他信息以促進(jìn)可解釋性。
- 基于回歸的方法,如GENIE3,通過基于回歸模型確定每個(gè)網(wǎng)絡(luò)基因的最具預(yù)測(cè)性的基因子集來解析網(wǎng)絡(luò)。這些方法適用于線性級(jí)聯(lián),但不適用于前饋回路。
- 對(duì)于基于相互信息的方法,如ARACNE和CLR,網(wǎng)絡(luò)結(jié)構(gòu)是由基因?qū)χg的依賴程度決定的。這些相互信息的網(wǎng)絡(luò)方法可以推斷方向性和潛在的因果關(guān)系,可以更準(zhǔn)確地預(yù)測(cè)前饋回路,但線性級(jí)聯(lián)的性能有限。
- 貝葉斯網(wǎng)絡(luò)(BN)建模方法提供了靈活的框架來合并和整合多組數(shù)據(jù)作為先驗(yàn)信息,以推斷因果性和方向性基因-基因相互作用。BN編碼基因之間的條件依賴性,其中每個(gè)基因由其父節(jié)點(diǎn)的值決定。為了提高精確度,BNs通過可能圖的多元空間進(jìn)行搜索,這樣做的代價(jià)是較高的計(jì)算成本,并且不能保證可以檢測(cè)到最優(yōu)拓?fù)洹?/li>
常用的GRN推理算法各有優(yōu)缺點(diǎn),多方法的集成可以彌補(bǔ)每種方法固有的缺點(diǎn),更好地解釋數(shù)據(jù)。需要注意的是,這些方法是針對(duì)bulk組織級(jí)數(shù)據(jù)進(jìn)行優(yōu)化的,這些數(shù)據(jù)通常符合標(biāo)準(zhǔn)數(shù)據(jù)分布,并且?guī)缀鯖]有缺失值。
單細(xì)胞技術(shù)和數(shù)據(jù)結(jié)構(gòu)
利用最近開發(fā)的單細(xì)胞技術(shù),我們現(xiàn)在能夠檢測(cè)轉(zhuǎn)錄(DropSeq , inDrop, 10X,SmartSeq v4,Marsseq , Seq-Well , SPLiT-seq , sci-RNA-seq),蛋白質(zhì)(CITE-seq),以及表觀基因組如開放染色質(zhì)(scacc -seq)和甲基化景觀。這些單細(xì)胞技術(shù)帶來了令人興奮的可能性,以前所未有的分辨率和規(guī)模探索生物學(xué)。單細(xì)胞RNA測(cè)序(scRNAseq)是目前最流行和廣泛應(yīng)用的高通量檢測(cè)單細(xì)胞的技術(shù)。通常,這些高通量單細(xì)胞轉(zhuǎn)錄組技術(shù)是基于從3 '端計(jì)數(shù)轉(zhuǎn)錄片段,然后與參考基因組對(duì)齊。由此產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)集合了每個(gè)單細(xì)胞的基因計(jì)數(shù),稱為數(shù)字基因表達(dá)譜(digital gene expression ,DGE)。
對(duì)于其他數(shù)據(jù)類型,相似的細(xì)胞標(biāo)記(如蛋白質(zhì),染色質(zhì)位置,和甲基化位點(diǎn))矩陣形成主要的數(shù)據(jù)結(jié)構(gòu)。雖然已經(jīng)將單細(xì)胞表觀基因組投射到單細(xì)胞轉(zhuǎn)錄組上,但就我們所知,整合多組數(shù)據(jù)用于GRN建模還沒有嘗試過,這是方法學(xué)未來發(fā)展的方向。多組數(shù)據(jù)可以以多種方式合并,包括構(gòu)建一個(gè)跨組學(xué)層外推的具有邊緣置信度的單一網(wǎng)絡(luò),以及從單個(gè)組學(xué)層構(gòu)建多個(gè)網(wǎng)絡(luò),通過關(guān)聯(lián)關(guān)系或已知功能相關(guān)性在各層之間進(jìn)行交互。例如,位于特定基因啟動(dòng)子或增強(qiáng)子區(qū)域的開放染色質(zhì)將允許在scac -seq和scRNAseq層之間繪制有向邊;蛋白質(zhì)組數(shù)據(jù)可以幫助推斷蛋白質(zhì)之間的相互作用,并提供有關(guān)調(diào)控蛋白質(zhì)的信息,如轉(zhuǎn)錄因子(TFs)和調(diào)控轉(zhuǎn)錄組和表觀基因組的表觀基因組調(diào)控。在這篇綜述中,我們將重點(diǎn)關(guān)注scRNAseq數(shù)據(jù),因?yàn)樗鼈兪荊RN建模中研究的最豐富的單細(xì)胞數(shù)據(jù)類型。
現(xiàn)有GRN方法在單細(xì)胞網(wǎng)絡(luò)建模中的性能
最近,Chen和Mar在利用經(jīng)驗(yàn)和模擬單細(xì)胞數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時(shí),評(píng)估了五種常用的用于bulk組織數(shù)據(jù)的廣義網(wǎng)絡(luò)重建方法的能力。在他們的分析中使用的方法包括部分相關(guān)、BN、GENIE3、ARACNE和CLR。利用精確召回和接受者工作特性曲線( precision-recall and receiver operating characteristic curves )來評(píng)估每種方法是否能準(zhǔn)確再現(xiàn)參考網(wǎng)絡(luò),發(fā)現(xiàn)在模擬和實(shí)驗(yàn)單細(xì)胞數(shù)據(jù)集中,所有方法都沒有明顯優(yōu)于隨機(jī)生成方法。此外,在網(wǎng)絡(luò)預(yù)測(cè)中,不同方法之間也只存在有限的重疊。這表明,現(xiàn)有的基于單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建設(shè)方法缺乏通用性和適用性。然而,在解釋這種比較結(jié)果時(shí)需要謹(jǐn)慎,因?yàn)槭褂玫慕饦?biāo)準(zhǔn)參考網(wǎng)絡(luò)的有效性和質(zhì)量評(píng)價(jià)指標(biāo)會(huì)顯著影響比較結(jié)果。
scRNAseq數(shù)據(jù)網(wǎng)絡(luò)建模中特有挑戰(zhàn)與機(jī)遇
現(xiàn)有方法的潛在性能不足可能是由于與數(shù)據(jù)稀疏性、分布以及數(shù)據(jù)維數(shù)和容量增加相關(guān)的獨(dú)特挑戰(zhàn)造成的。
首先,對(duì)于使用最近的高通量平臺(tái)的scRNAseq來說,由于單細(xì)胞中存在的mRNA數(shù)量非常少,以及目前技術(shù)限制導(dǎo)致DGE矩陣中的大多數(shù)條目都是零,這導(dǎo)致矩陣非常稀疏,使得為bulk組織數(shù)據(jù)設(shè)計(jì)的方法的直接擴(kuò)展非常困難。重要的是,盡管這些零可能是個(gè)體細(xì)胞中隨機(jī)基因表達(dá)的結(jié)果(生物學(xué)上的零),但它們并不一定意味著mRNA分子的缺失,而是對(duì)中至低表達(dá)基因的低技術(shù)敏感性的結(jié)果,稱為缺失【著名的雙零問題】。值得注意的是,基于讀取計(jì)數(shù)的scRNAseq是零膨脹的,而包含獨(dú)特分子標(biāo)識(shí)符(UMI)計(jì)數(shù)的scRNAseq被發(fā)現(xiàn)具有“非零膨脹”特征,導(dǎo)致與基于讀取計(jì)數(shù)的技術(shù)相比,其分布不同。reads計(jì)數(shù)和基于uml的scRNAseq中底層數(shù)據(jù)分布的差異要求在未來實(shí)現(xiàn)新方法時(shí)考慮這些不同技術(shù)的數(shù)據(jù)特征。
在試圖為缺失值賦值時(shí),許多單細(xì)胞歸算方法,例如MAGIC、scImpute、DrImpute、SAVER、BISCUIT、ScUnif、PBLR、deepImpute等得到了開發(fā)和應(yīng)用。但是,這些方法的性能差異很大。在基準(zhǔn)測(cè)試中,scImpute和DrImpute在模擬數(shù)據(jù)上成功,但在面對(duì)非共線經(jīng)驗(yàn)數(shù)據(jù)時(shí)失敗,而SAVER和BISCUIT只能持續(xù)地將dropouts歸為接近零的值。此外,用于測(cè)量性能的主要指標(biāo)(例如rand指數(shù)或相互信息)對(duì)這些方法定義細(xì)胞集群的能力進(jìn)行基準(zhǔn)測(cè)試;目前還不清楚這些估算值如何影響網(wǎng)絡(luò)結(jié)構(gòu)。由于對(duì)這些數(shù)值插入方法的結(jié)果沒有一致的意見和實(shí)驗(yàn)驗(yàn)證,在使用數(shù)值插入數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時(shí)需要謹(jǐn)慎。簡(jiǎn)單和直觀的方法由漢等使用相同的細(xì)胞亞群的細(xì)胞類型,平均每個(gè)基因在細(xì)胞的非零值從每個(gè)子集獲得一個(gè)超細(xì)胞(supercell)的基因表達(dá)矩陣,與零值和更少的膨脹可能更多的生物有關(guān)。值得注意的是,這種做法會(huì)減少細(xì)胞數(shù)量并犧牲統(tǒng)計(jì)能力。
第二個(gè)挑戰(zhàn)是與細(xì)胞數(shù)據(jù)中的dropout 問題相關(guān)的非標(biāo)準(zhǔn)數(shù)據(jù)分布模式。大量的缺失值顯著地使數(shù)據(jù)分布從單峰分布(如高斯分布)向多模態(tài)分布傾斜,這違反了大多數(shù)經(jīng)典GRN建模方法的統(tǒng)計(jì)假設(shè)。對(duì)于單細(xì)胞網(wǎng)絡(luò)的構(gòu)建,需要仔細(xì)評(píng)估數(shù)據(jù)分布模式和適當(dāng)?shù)慕y(tǒng)計(jì)方法。有幾種統(tǒng)計(jì)方法,如零膨脹因子分析(ZIFA)和ZINB-WaVE(基于零膨脹負(fù)二項(xiàng)式的期望變異提取)已經(jīng)被開發(fā)來專門建模零膨脹的單細(xì)胞數(shù)據(jù)分布。ZIFA是一種降維方法,其假設(shè)是低表達(dá)的基因比高表達(dá)的基因更有可能導(dǎo)致缺失。ZIFA擴(kuò)展了因子分析,在非零均值表達(dá)式的基礎(chǔ)上,將dropout率模型作為指數(shù)衰減。然而,ZIFA也有限制,因?yàn)樗鼑?yán)格地對(duì)零測(cè)量進(jìn)行建模,不能解釋接近零的值。此外,ZIFA還有一個(gè)底層的線性轉(zhuǎn)換框架;然而,非線性降維技術(shù),如t-SNE和UMAP已經(jīng)被證明在解釋單細(xì)胞數(shù)據(jù)中是有用的,所以零膨脹模型的擴(kuò)展到這些非線性方法可能是有用的。ZINB-WaVE是另一種降維技術(shù),它獨(dú)特地模擬了scRNAseq數(shù)據(jù)的計(jì)數(shù)性質(zhì),并使用樣本級(jí)截獲(sample-level intercept)和靈活的基因級(jí)和樣本級(jí)協(xié)變合并標(biāo)準(zhǔn)化,以解決批次效應(yīng)和序列組成效應(yīng)(如基因長(zhǎng)度或GC內(nèi)容)。為了解決數(shù)據(jù)的零膨脹和過度分散問題,ZINB-WaVE修改了一個(gè)不適合數(shù)據(jù)的標(biāo)準(zhǔn)負(fù)二項(xiàng)分布,用一個(gè)術(shù)語給出觀察到0的概率,而不是實(shí)際的計(jì)數(shù)。雖然ZINB-WaVE主要被證明是單細(xì)胞數(shù)據(jù)的降維技術(shù),但作者認(rèn)為低維表示可以用于下游分析,如聚類或偽時(shí)間。
最近,Townes等發(fā)現(xiàn)多項(xiàng)式方法在特征選擇和降維方面優(yōu)于現(xiàn)有的其他方法。考慮這些替代的統(tǒng)計(jì)方法在GRN推斷可能被證明是有用的。應(yīng)該指出的是,這些統(tǒng)計(jì)方法是為讀計(jì)數(shù)數(shù)據(jù)開發(fā)的,可能不適合基于UMI的單細(xì)胞數(shù)據(jù)集,因?yàn)樗鼈冇胁煌牡讓訑?shù)據(jù)分布,而這些數(shù)據(jù)分布不是零膨脹的。
第三,該領(lǐng)域必須掌握校正混雜因素的能力,并將從多個(gè)實(shí)驗(yàn)獲得的數(shù)據(jù)推斷為一個(gè)共同的圖譜。挑戰(zhàn)出現(xiàn)在各批次數(shù)據(jù)由變量構(gòu)成和研究,甚至批次還包含相同的細(xì)胞類型,個(gè)別細(xì)胞類型的細(xì)胞數(shù)量和轉(zhuǎn)錄狀態(tài)由于程序上可以有很大的不同噪聲(組織分離、排序和試劑批次),scRNAseq平臺(tái)(例如10×與Dropseq),和試劑版本(10×的2和3版本)。就像在bulk組織設(shè)置中使用批次校正來調(diào)整混雜因素一樣,不同實(shí)驗(yàn)甚至實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)集的集成是重要的,因?yàn)樗鰪?qiáng)了統(tǒng)計(jì)強(qiáng)度和重現(xiàn)性。最初用于bulk組織校正的方法,如limma和ComBat,已應(yīng)用于單細(xì)胞數(shù)據(jù)的批量校正;而,已有研究表明,將這些為bulk數(shù)據(jù)開發(fā)的方法同時(shí)應(yīng)用于模擬和真實(shí)單細(xì)胞數(shù)據(jù)存在局限性。最近,該領(lǐng)域取得了重大進(jìn)展,產(chǎn)生了專門用于單細(xì)胞批次校正的方法,如典型相關(guān)分析(CCA)和mnnCorrect,以及基于帶標(biāo)記的參考數(shù)據(jù)集的細(xì)胞類型識(shí)別方法,如scmap和singleR。然而,在對(duì)單細(xì)胞數(shù)據(jù)應(yīng)用批次修正方法后,謹(jǐn)慎地進(jìn)行下游分析(如GRN構(gòu)建)是很重要的,而且有必要了解底層算法和假設(shè)。
像CCA和mnnCorrect這樣的方法只利用跨數(shù)據(jù)集共享的高度可變的基因進(jìn)行集成,并返回一個(gè)校正后的基因表達(dá)矩陣,其中只包含用于集成的可變基因。這些基因主要定義細(xì)胞類型特異性標(biāo)記,而CCA的過程固有地引入了基因之間的依賴關(guān)系,并違反了用于下游分析(如差異表達(dá))的統(tǒng)計(jì)測(cè)試的假設(shè),因此CCA的作者警告說,不要使用CCA進(jìn)行跨數(shù)據(jù)集的保守細(xì)胞類型鑒定。一般來說,為批次數(shù)據(jù)開發(fā)的批次校正方法在批次校正中執(zhí)行得更差,而為單細(xì)胞數(shù)據(jù)開發(fā)的方法在從不同批次聚集細(xì)胞類型方面更準(zhǔn)確,但可能不能擴(kuò)展到下游分析。因此,有必要開發(fā)能兩者兼顧的方法。
最后,與通常由試驗(yàn)組id、樣本id和特征測(cè)量組成的bulk組織數(shù)據(jù)相比,單細(xì)胞數(shù)據(jù)通過從每個(gè)樣本中添加數(shù)十種細(xì)胞類型和數(shù)千個(gè)細(xì)胞,也呈現(xiàn)出維數(shù)和數(shù)據(jù)量的增加。這種維數(shù)和數(shù)據(jù)量的增加,不僅使網(wǎng)絡(luò)建模更加復(fù)雜,計(jì)算成本更高,而且從生物學(xué)角度帶來了現(xiàn)有方法無法承受的新可能性。除了基因在網(wǎng)絡(luò)中是如何組織和相互作用這一典型問題之外,人們還可以提出許多新的令人激動(dòng)的問題。例如:
- 什么定義了細(xì)胞類型?
- 基因在每種細(xì)胞類型中是如何組織的?
- 細(xì)胞類型之間的網(wǎng)絡(luò)架構(gòu)有何不同?
- 細(xì)胞之間的關(guān)系是什么?
- 它們來自相同的還是不同的血統(tǒng)?
- 這些血統(tǒng)是如何進(jìn)化的?
- 同一細(xì)胞類型是否有不同的狀態(tài)?
- 什么基因調(diào)控通路決定細(xì)胞狀態(tài)?
- 細(xì)胞如何從一種狀態(tài)過渡到另一種狀態(tài)?
- 哪些細(xì)胞相互溝通以確定更高層次的功能,以及它們通過哪些基因和途徑進(jìn)行溝通?
許多這些新問題在bulk時(shí)代并沒有被考慮或容易解決。除了提供回答這些重要問題的機(jī)會(huì)外,在每個(gè)樣本中測(cè)量的 細(xì)胞中細(xì)胞間的差異性或異質(zhì)性也提供了足夠的信息來構(gòu)建樣本內(nèi)或特定于輪廓的網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)描述單個(gè)生物樣本的GRN,這在bulk時(shí)代是不可能的。換句話說,利用大細(xì)胞數(shù)維的能力允許為每個(gè)樣本構(gòu)建基于其組成細(xì)胞剖面的grn,這可以用于樣本間的共識(shí)網(wǎng)絡(luò),以提高準(zhǔn)確性。
最近的scRNAseq GRN建模方法
認(rèn)識(shí)到對(duì)單細(xì)胞數(shù)據(jù)的新的GRN建模方法的需要,最近開發(fā)了許多主要基于scRNAseq數(shù)據(jù)的方法。我們根據(jù)基本的生物學(xué)問題對(duì)這些方法進(jìn)行分類(動(dòng)態(tài)建模、細(xì)胞內(nèi)網(wǎng)絡(luò)和細(xì)胞-細(xì)胞相互作用網(wǎng)絡(luò)。然后是具體的生物學(xué)假設(shè)(例如TF目標(biāo)相互作用,配體-受體相互作用)和算法(例如共表達(dá),回歸,ode,貝葉斯和布爾型),如表1所示:
Category | Example methods | Underlying biological assumption | Algorithmic basis | Advantages | Limitations | |
---|---|---|---|---|---|---|
Dynamic network **(extensively reviewed in refs | SCNS | Single-gene changes between cell transition states can inform on gene regulatory relations | Boolean | Does not rely on prior knowledge. Has a web UI. Resulting models are executable and can be used to make predictions | Need data discretization; limit to small numbers of genes; regulatory relations need to follow Boolean rules | |
Dynamic network (extensively reviewed in refs) | SCODE [82] | TF expression dynamics (pseudo-time) and TF regulatory relations (GENEI3) | ODE; Bayesian model selection | Estimate relational expression efficiently using linear regression; reduction of time complexity; fast algorithm | Need dimension reduction first for computing speed and memory feasibility; assumes that all cells are on the same trajectory; optimization is computationally intractable | |
Dynamic network (extensively reviewed in refs) | GRISLI [83] | Variability in scRNAseq data caused by cell cycle, states, etc. allows the inference of pseudo-time associated with each individual cell | ODE | Makes no restrictive assumption on the gene network structure; can consider multiple trajectories; fast algorithm | Has to estimate the velocity of each individual cell using information from neighbors | |
Dynamic network (extensively reviewed in refs) | SINCERITIES [84] | Changes in the expression of a TF will alter the expression of target genes | Ridge regression and partial correlation analysis | Low computational complexity and able to handle large-scale data | Requires scRNAseq data at multiple time points. Restricted to TFs and their targets to infer edges | |
Dynamic network (extensively reviewed in refs) | Scribe [85] | Cell ordering can be improved with time-series or cell velocity estimations | RDI | Outperforms other pseudo-time methods given time-series data. Can be applied to any data type if the data structure is appropriate | Requires time-ordered gene expression profiles or velocity estimation from introns and exons | |
Dynamic network (extensively reviewed in refs) | AR1MA1-VBEM [40] | The cell differentiation process or response to external stimulus reveals the hierarchical structure of the transcriptome | First-order autoregressive moving-average and variational Bayesian expectation-maximization | Weighted interactions between genes along psuedotime. Model used accounts for noisy data | Data are expressed as fold changes between timepoints/conditions or scaled by housekeeping genes | |
Dynamic network (extensively reviewed in refs) | SCINGE [86] | Learned target regulator genes can be used to assign each cell to their progress along a trajectory | Granger causality | Smooths irregular pseudo-times and missing expression values | Near random performance for predicting targets of individual regulators | |
Dynamic network (extensively reviewed in refs) | SoptSC [87] | Similarities between whole transcriptomes of single cells can be used to order them | Cells ordered by minimum paths on weighted cluster-to-cluster graph derived from cell similarity matrix | Includes comprehensive single-cell workflow; leverages information from other parts of the workflow to improve performance | Cannot be run with other tools, have run the full workflow to get pseudo-time inference | |
Within-cell or cell population network | SCENIC [88] | TF target-based regulation | Combining TF regulatory relations (GENIE3) with TF-binding motif analysis | Robust against dropouts, get a TF score for individual cells (no averaging of cells). | Limited to TF-based relations | |
Within-cell or cell population network | Pina et al. [89] | TFs drive lineage commitment | Odds ratio for on/off gene associations and spearmen correlation for expression levels associations | Robust to dropouts | Based on single-cell multiplex qRT-PCR, may be difficult to extend the method to sparse single-cell data (selected 44 genes to test) | |
Within-cell or cell population network | Iacono et al. [90] | Coexpression is regulated by TFs, cofactors, and signaling molecules which can be captured with gene–gene correlations | Pearson correlation using z-score-transformed counts | Can compute correlations at the single-cell level and it is robust to dropouts and noise inherent to single-cell data | Networks are very dense (some have millions of significant edges) | |
Within-cell or cell population network | PIDC [39,91] | Gene regulatory information reflected in dependencies in the expression patterns of genes | Partial information decomposition using gene trios | Compared with correlation, captures more complicated gene dependencies | Networks are influenced by data discretization, choice of mutual information estimator, method developed for sc-qPCR data, may not be extendable to higher throughput and sparser scRNAseq data | |
Within-cell or cell population network | Jackson et al. [92] | Deletion of TFs combined with experimental conditions allows for the inference of gene relationships | MTL to leverage cross-dataset commonalities and incorporate prior knowledge | Does not require sophisticated normalization of single-cell data or imputation. Able to combine multiple conditions/datasets for more accurate inference. TF deletions give strong causal link to affected genes | Requires single-cell data with TF deletions and/or environmental perturbations | |
Within-cell or cell population network | Wang et al. [93] | Gene perturbations allow for inference of causal relationships | Scoring of conditional independence test to identify optimal DAG | Gives causal relationships between genes | Requires interventional data. No loops allowed in DAG | |
Within-cell or cell population network | ACTION [94] | Functional identity of cells is determined by a weak, but specifically expressed set of genes which are mediated by TFs | Kernel-based cell similarity and geometric approach to identify primary functions | Robust to dropout and does not require averaging. Identifies functions unique to cell types | Requires TFs and their targets. Only provides TF-driven networks | |
Within-cell or cell population network | SINCERA [95] | TF target-based regulation | First-order conditional dependence on gene expression to construct a DAG | Key TFs identified using multiple importance metrics | Only considers TFs and their targets. Requires genes/TFs to be DEGs or expressed in >80% of cells | |
Cell–cell communication network | iTALK [96] | Ligand–receptor interactions | Threshold ranked list of genes from two cell types for ligand–receptor pairs | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell). Cannot reveal novel interactions beyond known ligand–receptor knowledge | |
Cell–cell communication network | Zhou et al. [97] | Ligand–receptor interactions | Expression of ligand and corresponding receptor more than three standard deviations greater than the mean | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Kumar et al. [98] | Ligand–receptor interactions | Product of the average expression of ligand and corresponding receptor | Allows for the inference of directionality of interaction. Interaction score gives the strength of interaction (rather than just significance) | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Arneson et al. [99] | Ligand to downstream signaling | Coexpression of ligand genes in source cells with other genes in target cells | Use secreted ligands as a guidance for directional inference between cell populations | Gene expression is summarized to the cell population level and coexpression is at the sample level, requiring large sample sizes | |
Cell–cell communication network | SoptSC [87] | Ligand–receptor interactions | Likelihood estimate of the interaction | Cell–cell communication networkbetween two cells based on expression of the ligand, receptor, and downstream pathway target genes (including expression direction). Consensus signaling network derived from all cells in each cluster | Incorporates target genes of pathways and their directionality. Computes interaction likelihood at the single-cell level and summarizes across all cells in the cluster for higher confidence | Requires curation of ligand–receptor interactions and their downstream pathways |
Cell–cell communication network | scTensor [100] | Ligand–receptor interactions | Tensor decomposition with cell–cell interactions as hypergraphs | Allows L–R pairs to function across multiple cell-type pairs (not restricted to a single-cell-type pair), which is more reflective of underlying biology | Requires curation of ligand–receptor interactions. Averages single cells to the cell-type level |
最直接的算法是共表達(dá),即一個(gè)基因與另一個(gè)基因相互作用的可能性取決于它們成對(duì)相關(guān)系數(shù)的強(qiáng)度。雖然在計(jì)算上易于處理,但這些方法中的大多數(shù)不提供方向性,而且可能推斷函數(shù)相關(guān)性而不是直接調(diào)節(jié)。更復(fù)雜的方法包括ode、布爾網(wǎng)絡(luò)和BNs,如前所述,每種方法都有其優(yōu)點(diǎn)和局限性。
- 布爾網(wǎng)絡(luò)要求離散化基因表達(dá)值,并應(yīng)用布爾函數(shù)來描述調(diào)控相互作用,這可能導(dǎo)致過度簡(jiǎn)化。
- 基于ode的方法使用線性、非線性或分段微分方程以連續(xù)而不是離散的方式對(duì)mRNA含量的動(dòng)態(tài)特性建模。
- BN是一個(gè)有向無環(huán)圖(DAG),它整合了先驗(yàn)信息來指導(dǎo)其基因-基因相互作用的預(yù)測(cè),本質(zhì)上是概率性的。
- 最后,信息論度量描述了生物實(shí)體之間的統(tǒng)計(jì)相關(guān)性,包括熵(熵是基于隨機(jī)變量的不確定性對(duì)信息進(jìn)行量化的概念)和互信息(互信息是對(duì)一個(gè)隨機(jī)變量的觀察可以告知或減少另一個(gè)隨機(jī)變量的不確定性)。這種方法產(chǎn)生了更一般的關(guān)聯(lián),允許捕獲非線性依賴,并在網(wǎng)絡(luò)推理中被普遍使用。
值得注意的是,由于新的方法正在迅速發(fā)展,不可能詳盡地記錄所有現(xiàn)有的方法。在這里,我們強(qiáng)調(diào)了單細(xì)胞GRN建模的廣泛類別,并討論了示例方法來說明這些概念,并注意到它們的優(yōu)點(diǎn)和潛在的局限性。我們還排除了基于舊的低通量單細(xì)胞平臺(tái)(如單細(xì)胞qPCR)數(shù)據(jù)開發(fā)的方法,這些方法與稀疏高通量的scRNAseq沒有相同的挑戰(zhàn)。
動(dòng)力學(xué)網(wǎng)絡(luò)
到目前為止,大多數(shù)基于scRNAseq的GRN建模方法被設(shè)計(jì)用于處理動(dòng)態(tài)細(xì)胞狀態(tài)轉(zhuǎn)換(圖1B),因?yàn)閟cRNAseq數(shù)據(jù)包含來自顯示時(shí)間動(dòng)態(tài)的異步細(xì)胞種群的信息,允許在擬(偽)時(shí)間(pseudo-time)尺度上映射細(xì)胞轉(zhuǎn)換。表達(dá)動(dòng)力學(xué)或偽時(shí)間估計(jì)的常用模型假設(shè)細(xì)胞變化(即發(fā)育、激活和失活)沿著連續(xù)曲線或理想化樹進(jìn)行,每個(gè)中間階段都很短,并通過對(duì)大量細(xì)胞的測(cè)序得到。在這些假設(shè)下,計(jì)算建模可以推斷細(xì)胞動(dòng)力學(xué)的軌跡,可以根據(jù)已知的調(diào)控關(guān)系,如TF靶標(biāo)信息、基因表達(dá)的相似性、以未成熟和成熟mRNA含量為代表的RNA速度來推導(dǎo)。但是,需要注意的是,在給定快照上同時(shí)出現(xiàn)的各種細(xì)胞狀態(tài)并不代表序列或沿襲信息推斷的實(shí)時(shí)過程。因此,加入偽時(shí)間不一定能改善GRN的構(gòu)造。
到目前為止,已經(jīng)開發(fā)了超過50種方法用于軌跡推斷來推導(dǎo)偽時(shí)間信息,這些方法之前已經(jīng)被回顧和比較過。偽時(shí)間排序?yàn)閯?dòng)態(tài)GRN建模提供了方向性和交互性信息。這種偽時(shí)間信息與上述常用的網(wǎng)絡(luò)構(gòu)造算法如correlation , ODE , Boolean , BN,信息論和其他方法相結(jié)合。許多動(dòng)態(tài)GRN方法已經(jīng)被其他人廣泛地回顧過,我們?cè)谶@里只討論不同類別中的幾個(gè)例子。
- 一種布爾網(wǎng)絡(luò)方法,即SCNS,是基于有序細(xì)胞之間的單基因變化,細(xì)胞被離散到一個(gè)開/關(guān)的狀態(tài)。
- 另一種方法SCODE使用線性O(shè)DE(一種假設(shè)所有細(xì)胞都在同一軌跡上的偽時(shí)間估計(jì))和基于TF的框架來建模TF動(dòng)力學(xué),捕獲基因間的調(diào)控關(guān)系。
- 在此基礎(chǔ)上,GRISLI最近被開發(fā)出來,它使用了與SCODE類似的方法,但考慮了多個(gè)細(xì)胞軌跡,不采用網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算時(shí)間更快。GRISLI首先估計(jì)每個(gè)細(xì)胞的速度,然后解決一個(gè)稀疏回歸問題,將細(xì)胞的基因表達(dá)與其速度分布聯(lián)系起來,以估計(jì)GRN。
- 以信息論為基礎(chǔ)的方法,SINCERITIES,利用Granger因果關(guān)系獲取方向性信息,量化每個(gè)基因表達(dá)在兩個(gè)后續(xù)(偽)時(shí)間點(diǎn)之間的時(shí)間變化。通過嶺回歸分析,利用TF表達(dá)的變化預(yù)測(cè)相應(yīng)基因在下一個(gè)時(shí)間窗口的變化,通過對(duì)每個(gè)基因?qū)Φ谋磉_(dá)進(jìn)行偏相關(guān)分析,推斷邊緣方向和符號(hào)。SCINGE還對(duì)有序單細(xì)胞數(shù)據(jù)使用基于核函數(shù)的因果回歸來預(yù)測(cè)調(diào)控因子與靶基因的相互作用,然后對(duì)回歸結(jié)果進(jìn)行聚合,對(duì)預(yù)測(cè)的相互作用進(jìn)行排序。
- 另一種方法是PIPER,它使用局部泊松圖形建模來更有效地捕獲細(xì)胞分化過程中的網(wǎng)絡(luò)變化,并突出顯示驅(qū)動(dòng)這些變化的關(guān)鍵TFs。
- NB推理方法,AR1MA1-VBEM(變分貝葉斯采用),應(yīng)用一階自回歸移動(dòng)平均(AR1MA1)模型適合代表觀測(cè)時(shí)間序列的線性模型的組合數(shù)據(jù)前面的計(jì)算和噪聲項(xiàng),并使用一個(gè)問題的框架,利用變分法來優(yōu)化網(wǎng)絡(luò)模型的邊際似然和后驗(yàn)分布。
- Scribe是另一種最近發(fā)展起來的方法,它使用限制性定向信息(RDI),通過引用相關(guān)的時(shí)間序列數(shù)據(jù)或從內(nèi)含子(指示未成熟RNA)和外顯子讀子中推斷細(xì)胞速度來推斷因果grn。作者證明當(dāng)有真實(shí)的時(shí)間序列數(shù)據(jù)時(shí),Scribe優(yōu)于其他偽時(shí)間方法;然而,當(dāng)測(cè)量的時(shí)間信息丟失時(shí),所有方法的性能都會(huì)受到極大影響。有趣的是,Deshpande等人最近對(duì)各種方法進(jìn)行了比較,發(fā)現(xiàn)加入偽時(shí)間并不一定會(huì)帶來更好的性能,但在某些情況下會(huì)損害網(wǎng)絡(luò)重建。如前所述,這可能是由于偽時(shí)間方法的假設(shè)存在問題造成的。
細(xì)胞內(nèi)網(wǎng)絡(luò)
第二類方法側(cè)重于在不考慮細(xì)胞軌跡或動(dòng)力學(xué)的情況下對(duì)細(xì)胞內(nèi)群體的grn進(jìn)行建模。這些方法包括共表達(dá)和基于tf的方法、共表達(dá)和不依賴tf的方法以及信息論方法(表1和圖1B)。這符合組織基因-基因相互作用GRN建模的基本概念,除了這里為特定細(xì)胞群建模的單細(xì)胞數(shù)據(jù)。
與動(dòng)態(tài)網(wǎng)絡(luò)建模相似,對(duì)細(xì)胞內(nèi)群體建模的最簡(jiǎn)單方法是基于共表達(dá)。在這里,共表示方法分為兩組:利用TFs形式的先驗(yàn)信息的方法和不利用TFs形式的方法。對(duì)于與tf無關(guān)的方法,一個(gè)基因與另一個(gè)基因相互作用的可能性取決于它們成對(duì)相關(guān)系數(shù)的強(qiáng)度,并考慮了所有可能的基因?qū)ΑT诨趖f的方法中,根據(jù)與不同TFs的成對(duì)相關(guān)系數(shù)最強(qiáng)的基因分組到模塊中,或者根據(jù)之前的文獻(xiàn)或motif證據(jù)分離到潛在的相互作用。定義細(xì)胞內(nèi)grn的一種更復(fù)雜的方法是部分信息分解,它可以捕獲非線性的基因依賴性。在這里,由一對(duì)基因提供的信息被用來量化所有三組基因中關(guān)于第三個(gè)基因的獨(dú)特的、共享的和協(xié)同的信息,從而推斷出一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
幾種基于相關(guān)的方法已經(jīng)被開發(fā)出來,用來比較已知或預(yù)測(cè)的TFs與靶基因或所有基因之間的基因表達(dá)模式。例如,
- 通過對(duì)共表達(dá)基因模塊進(jìn)行帶有TF結(jié)合基序的SCENIC couples基因共表達(dá)分析,以識(shí)別GRN模塊,預(yù)測(cè)TF調(diào)節(jié)因子,并識(shí)別假定的TF靶標(biāo)(稱為調(diào)節(jié)因子)的單細(xì)胞水平活性。這些調(diào)節(jié)因子的活性可用于群集細(xì)胞類型,比較網(wǎng)絡(luò)保護(hù),并確定參與疾病的重要細(xì)胞狀態(tài)和grn。
- 另一種方法是使用完整的分析管道來處理scRNAseq數(shù)據(jù)。它首先識(shí)別每個(gè)細(xì)胞類型的候選TFs和它們的靶標(biāo)。然后利用基因表達(dá)的一階條件依賴性來確定兩個(gè)或一個(gè)轉(zhuǎn)錄因子與目標(biāo)基因之間的相互作用,并通過整合六個(gè)不同節(jié)點(diǎn)重要性指標(biāo)來確定每個(gè)GRN中的關(guān)鍵轉(zhuǎn)錄因子。
- 其他的coexpression-based GRN方法,使用一個(gè)細(xì)胞類型特異的GRN正交化方法構(gòu)建基于細(xì)胞的功能標(biāo)識(shí)的關(guān)鍵假設(shè)是由一組弱,但具體表達(dá)基因介導(dǎo)的一組TFs。
- ACTION將每個(gè)細(xì)胞描述為高維空間中的一組“細(xì)胞函數(shù)”,這些函數(shù)的數(shù)量使用非參數(shù)方法確定。使用正交化法確定每種細(xì)胞功能所特有的基因,并評(píng)估TFs在控制這些細(xì)胞功能基因中的作用。細(xì)胞內(nèi)的TF和相關(guān)靶基因構(gòu)成了這個(gè)網(wǎng)絡(luò)。
Pina等和最近的Iacono等也利用共表達(dá)構(gòu)建了不限于TF目標(biāo)關(guān)系的全局GRNs。前者計(jì)算一個(gè)細(xì)胞類型內(nèi)所有細(xì)胞間的Spearman等級(jí)(rank)相關(guān)性,以推斷造血過程中的細(xì)胞型GRNs,并利用線性轉(zhuǎn)化表達(dá)數(shù)據(jù)的比值比確定顯著的成對(duì)關(guān)聯(lián)。Iacono等人使用了一種基于皮爾遜相關(guān)的方法,該方法首先使用bigSCale轉(zhuǎn)換表達(dá)值,使用概率模型推導(dǎo)出每個(gè)基因的z分?jǐn)?shù),以考慮單細(xì)胞數(shù)據(jù)固有的噪音和變異性。利用z得分的兩兩相關(guān)關(guān)系來構(gòu)建grn。z分?jǐn)?shù)的使用增加了顯著的基因?qū)虻南嚓P(guān)性。
為了揭示簡(jiǎn)單的相關(guān)策略所不能提供的復(fù)雜的基因依賴關(guān)系,GRN推理方法采用了信息論的技術(shù)。具體來說,PIDC使用部分信息分解,在所有其他可能的基因中找到任何一對(duì)兩個(gè)基因所提供的唯一信息。這種多元信息的方法利用第三個(gè)基因之間的依賴關(guān)系識(shí)別非線性雙基因關(guān)系。
細(xì)胞通信網(wǎng)絡(luò)
一個(gè)給定的異質(zhì)組織的基本功能不僅由組織內(nèi)不同細(xì)胞類型的活動(dòng)決定,而且由細(xì)胞群體之間密切的溝通和協(xié)調(diào)決定。例如,神經(jīng)元和星形膠質(zhì)細(xì)胞相互作用以保證大腦的基本功能,免疫細(xì)胞與脂肪組織中的脂肪細(xì)胞相互作用以調(diào)節(jié)能量代謝和產(chǎn)熱。因此,細(xì)胞-細(xì)胞間的通訊是一個(gè)關(guān)鍵的生物學(xué)問題,但由于之前缺乏高通量、高分辨率的單細(xì)胞數(shù)據(jù)而尚未得到全面的解決。單細(xì)胞方法同時(shí)捕獲多種細(xì)胞類型的獨(dú)特能力,使得建立細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型成為可能。建立這種網(wǎng)絡(luò)模型的基本假設(shè)是,細(xì)胞之間的通信可以通過測(cè)量單個(gè)細(xì)胞群體的分子模式來捕獲。例如,一對(duì)相互聯(lián)系的細(xì)胞可能以協(xié)調(diào)的方式表達(dá)參與特定功能的基因和蛋白質(zhì)(例如,一個(gè)細(xì)胞表達(dá)配體,另一個(gè)細(xì)胞表達(dá)相應(yīng)的受體,以觸發(fā)信號(hào)通路)。
早期對(duì)細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型的嘗試主要是基于基因共同表達(dá)的概念,無論是否考慮配體-受體的相互作用信息。潛在的假設(shè)是細(xì)胞之間的基因相關(guān)模式反映了真實(shí)的生物相互作用。在組織-組織相互作用的水平上,已有證據(jù)支持這一假設(shè)的有效性。例如,腦區(qū)域間的基因共表達(dá)可以概括出小鼠腦連接體功能衍生的相互作用,5種不同小鼠組織間的基因共表達(dá)揭示了介導(dǎo)溝通的新內(nèi)分泌因子,這些新因子隨后被實(shí)驗(yàn)驗(yàn)證。
當(dāng)Han等人基于不同細(xì)胞類型的基因表達(dá)譜的相似性建立細(xì)胞-細(xì)胞連接時(shí),共表達(dá)方法迅速適用于單細(xì)胞數(shù)據(jù)。然而,這些網(wǎng)絡(luò)更有可能反映細(xì)胞類型之間的相似性,而不是相互作用或通信。為了修改經(jīng)典的共表達(dá)框架,基于配體和受體的方法已經(jīng)被提出,它依賴于這樣的假設(shè):細(xì)胞間通信的重要部分是通過釋放化學(xué)分子從一個(gè)細(xì)胞結(jié)合到另一個(gè)細(xì)胞的受體。利用這個(gè)假設(shè)允許基于配體受體的方法來構(gòu)建可靠的基于生物的定向網(wǎng)絡(luò)。然而,這樣做的代價(jià)是在固有的稀疏數(shù)據(jù)模式中嚴(yán)重限制了潛在基因的集合。值得注意的是,基于共表達(dá)的分析通常使用皮爾遜相關(guān)系數(shù),由于零膨脹的性質(zhì)和獨(dú)特的分布模式,皮爾遜相關(guān)系數(shù)可能不適用于基于讀取的單細(xì)胞數(shù)據(jù)集。在對(duì)單細(xì)胞數(shù)據(jù)使用基于共表達(dá)的分析時(shí),重要的是要考慮數(shù)據(jù)轉(zhuǎn)換和適當(dāng)?shù)慕y(tǒng)計(jì)。
有幾種方法說明了通過配體-受體相互作用的細(xì)胞-細(xì)胞通信。
- Zhou等人編制了一份>25000對(duì)已知配體受體的清單,以檢測(cè)它們?cè)陉P(guān)于4000個(gè)黑色素瘤細(xì)胞的轉(zhuǎn)錄組中的變化。為了確定一對(duì)細(xì)胞是否在交流,配體和相應(yīng)的受體必須在這兩種細(xì)胞中表達(dá)超過一定的可調(diào)閾值。
- 類似地,Kumar等人關(guān)注的是基于約1800文獻(xiàn)的配體-受體對(duì),但采用了不同的評(píng)分方案,考慮了各自被測(cè)細(xì)胞類型中平均受體表達(dá)和平均配體表達(dá)的產(chǎn)物。
- iTALK是另一種新的基于配體-受體交互的網(wǎng)絡(luò)構(gòu)建方法,它被移植為帶有數(shù)據(jù)可視化工具的R包。對(duì)于每一個(gè)細(xì)胞類型和iTALK數(shù)據(jù)庫中的配體對(duì),iTALK標(biāo)識(shí)中的配體-受體對(duì)(> 2600對(duì))兩個(gè)細(xì)胞類型之間通過詢問排名列表基因來源于平均差異表達(dá)基因(單一的計(jì)算/條件)或(多個(gè)時(shí)間點(diǎn)/條件)。此外,iTALK還能夠使用元數(shù)據(jù)(例如,時(shí)間點(diǎn)、組和群組)通過識(shí)別不同表達(dá)的配體-受體對(duì)來發(fā)現(xiàn)細(xì)胞-細(xì)胞相互作用的變化。
- 類似地,Smillie等人使用了FANTOM5數(shù)據(jù)庫中數(shù)千篇支持文獻(xiàn)的受體-配體相互作用來識(shí)別細(xì)胞-細(xì)胞相互作用,要求基因是細(xì)胞標(biāo)記基因或差異表達(dá)基因來表示細(xì)胞間的重要相互作用。
- 在大多數(shù)配體-受體方法中,配體-受體對(duì)僅限于細(xì)胞類型;然而,在scTensor中,Tsuyuzaki等人采用了更靈活的方法,不存在此類限制。在scTensor中,細(xì)胞-細(xì)胞相互作用被表示為超圖,超圖描述了用張量分解確定的配體-受體對(duì)的有向邊。
- Vento-Tormo等人最近提出的一種方法也考慮了分泌分子和細(xì)胞表面分子,并使用基于置換的方法來尋找細(xì)胞類型之間豐富的配體-受體對(duì)。為了實(shí)現(xiàn)這一點(diǎn),作者開發(fā)了CellPhoneDB,一個(gè)配體-受體相互作用的公共知識(shí)庫,由蛋白質(zhì)-蛋白質(zhì)相互作用的公共資源管理,其中包括配體和受體的亞基組成,以充分表達(dá)它們的相互作用。對(duì)于由多個(gè)亞基組成的蛋白質(zhì),需要表達(dá)所有亞基才能推斷出準(zhǔn)確的相互作用。
上述方法都只專注于配體-受體對(duì),這依賴于假定的基因,使其局限于一組可通知細(xì)胞-細(xì)胞通訊的基因?qū)Α4饲埃环N限制較少的建模方法已經(jīng)被開發(fā)出來,該方法基于編碼源組織分泌肽和靶組織中所有基因的共同表達(dá),來解剖組織-組織通信網(wǎng)絡(luò)。Arneson等人采用這一概念,在假小鼠和腦外傷小鼠的海馬中構(gòu)建細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)圖,揭示了腦損傷中廣泛的網(wǎng)絡(luò)重新布線。這種方法推斷出細(xì)胞之間的聯(lián)系,其基礎(chǔ)是假設(shè)一個(gè)細(xì)胞通過分泌信號(hào)分子與另一個(gè)細(xì)胞通訊,這些信號(hào)分子與靶細(xì)胞上的受體結(jié)合,從而觸發(fā)靶細(xì)胞的下游分子事件。因此,可能在源細(xì)胞類型中編碼分泌信號(hào)分子(即配體)的基因與受體以及靶細(xì)胞類型的下游通路基因之間存在共表達(dá)。通過考慮細(xì)胞類型之間所有表達(dá)基因的模式,其他方法可以將細(xì)胞-細(xì)胞相互作用的范圍擴(kuò)展到基于配體-受體的關(guān)系之外,盡管對(duì)這種方法的生物學(xué)解釋不是那么直接。
綜合的方法
wang et al提出了SoptSC,一個(gè)統(tǒng)一的框架來進(jìn)行單細(xì)胞分析從基因表達(dá)矩陣基本分析工作流(如標(biāo)準(zhǔn)化、集群、降維,并確定細(xì)胞標(biāo)記基因),隨后推斷信息交流網(wǎng)絡(luò)和pseudotemporal。SoptSC的關(guān)鍵前提是結(jié)構(gòu)化的細(xì)胞間相似度矩陣有助于改進(jìn)網(wǎng)絡(luò)推理步驟。相似矩陣也被用于偽時(shí)間排序,在加權(quán)簇到簇圖中尋找細(xì)胞之間的最短路徑。為了推斷細(xì)胞-細(xì)胞信號(hào)網(wǎng)絡(luò),根據(jù)配體-受體對(duì)的表達(dá)和下游通路靶基因的方向來計(jì)算兩個(gè)細(xì)胞間相互作用的可能性估計(jì)值。通過總結(jié)任意兩種細(xì)胞類型的所有細(xì)胞之間的信號(hào)轉(zhuǎn)導(dǎo)概率,就可以形成一個(gè)集群/細(xì)胞類型之間的一致網(wǎng)絡(luò)。
基因擾動(dòng)網(wǎng)絡(luò)
上述方法都是利用TF級(jí)聯(lián)、配體-受體關(guān)系等信息流假設(shè),沒有直接的因果信息。含有基因擾動(dòng)信息的單細(xì)胞數(shù)據(jù)對(duì)于提供GRN構(gòu)建的因果信息極為有用,因?yàn)橐粋€(gè)基因的靶向擾動(dòng)是其他基因下游反應(yīng)的來源或觸發(fā)器。Jackson等人提出了利用基因缺失突變體的方法。具體地說,他們匯集了橫跨12種不同基因型(TF缺失)和11種不同條件的72種不同酵母株,生成了38000個(gè)細(xì)胞的scRNAseq數(shù)據(jù)。除了表達(dá)數(shù)據(jù),該方法使用來自TF目標(biāo)和生物物理參數(shù)(如TF活性和mRNA衰減率)的先驗(yàn)信息,使用多任務(wù)學(xué)習(xí)(MTL)框架構(gòu)建GRN。這允許在不同的條件和實(shí)驗(yàn)中整合信息,以解釋TF擾動(dòng)和觀察到的基因表達(dá)變化之間的關(guān)系。通過直接刪除TFs,作者創(chuàng)建了一個(gè)有價(jià)值的數(shù)據(jù)集,可以作為其他單細(xì)胞網(wǎng)絡(luò)推理方法的有用基準(zhǔn)。Wang等人提出了一種推斷因果DAGs的算法。將CRISPR/ cas9介導(dǎo)的基因擾動(dòng)與單細(xì)胞測(cè)序相結(jié)合,生成高通量的介入基因表達(dá)數(shù)據(jù)。該算法基于貪心SP來限制基于置換的DAG搜索空間,利用貪心干涉等價(jià)搜索來評(píng)估潛在的網(wǎng)絡(luò)分?jǐn)?shù)。為了進(jìn)一步擴(kuò)展因果網(wǎng)絡(luò)推理的研究,Wang等人引入了一種方法,可以識(shí)別從不同數(shù)據(jù)集推導(dǎo)出的DAGs之間的差異。同一組也表明,軟干預(yù)用于Perturb-seq,比如那些導(dǎo)致局部破壞的基因相關(guān)性(例如RNAi或CRISPR-mediated基因激活),提供相同數(shù)量的因果信息困難的干預(yù)(例如CRISPR / Cas9-mediated基因刪除),導(dǎo)致完全中斷,盡管只是輕微擾動(dòng)。
單細(xì)胞GRN建模方法的性能評(píng)估
Chen和Mar最近將一些單細(xì)胞網(wǎng)絡(luò)建模方法,包括SCENIC、SCODE和PIDC,應(yīng)用于模擬和經(jīng)驗(yàn)的單細(xì)胞數(shù)據(jù)集,以評(píng)估其捕獲已知網(wǎng)絡(luò)交互的能力。他們發(fā)現(xiàn)這些方法之間的一致性很低。然而,由于每一種方法都有獨(dú)特的假設(shè),并且可能不被設(shè)計(jì)來捕捉類似的交互作用,因此方法之間的一致并不一定適合于評(píng)估性能。另一項(xiàng)比較研究考察了包含偽時(shí)間信息的多種網(wǎng)絡(luò)推理方法(如SCINGE、SCODE和SINCERITIES)的性能,也表明許多調(diào)節(jié)目標(biāo)預(yù)測(cè)對(duì)于每一種被測(cè)試的方法都可以接近隨機(jī)。
這些發(fā)現(xiàn)需要對(duì)單細(xì)胞網(wǎng)絡(luò)建模方法進(jìn)行改進(jìn),并對(duì)現(xiàn)有的單細(xì)胞GRN方法的性能進(jìn)行全面評(píng)估。另一方面,由生物學(xué)假設(shè)和數(shù)據(jù)驅(qū)動(dòng)的基因共同表達(dá)驅(qū)動(dòng)的配體-受體框架似乎在細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)建模中很有前景。例如,用這種方法對(duì)scRNAseq數(shù)據(jù)進(jìn)行建模,再現(xiàn)了海馬體內(nèi)已知的細(xì)胞-細(xì)胞相互作用。
理想與現(xiàn)實(shí)之間
單細(xì)胞多組學(xué)分析技術(shù)正在迅速發(fā)展,帶來革命性的力量以提高我們對(duì)生命的基本單位----細(xì)胞-----以及在生理和病理?xiàng)l件下細(xì)胞之間的綜合了解。在更準(zhǔn)確地分類細(xì)胞類型、糾正混雜因素、描述細(xì)胞譜系和細(xì)胞狀態(tài)轉(zhuǎn)變等方面取得了重大進(jìn)展。然而,這些進(jìn)展還不足以使我們完全理解個(gè)體細(xì)胞群功能的調(diào)節(jié)機(jī)制,以及決定更高水平組織功能的細(xì)胞-細(xì)胞相互作用。現(xiàn)有方法模型基因網(wǎng)絡(luò)優(yōu)化的主要組織數(shù)據(jù)為單細(xì)胞數(shù)據(jù)表現(xiàn)不佳或不能適應(yīng)新的生物單細(xì)胞數(shù)據(jù),帶來的問題和方法,有效地和精確地模型流出單細(xì)胞數(shù)據(jù)到全面的RGNS的圖譜還在初級(jí)階段。特別是,目前仍急需新的網(wǎng)絡(luò)方法來解決單細(xì)胞數(shù)據(jù)的獨(dú)特挑戰(zhàn),如數(shù)據(jù)稀疏性、多模態(tài)分布和更高維數(shù)。數(shù)據(jù)稀疏性問題可以通過改進(jìn)單細(xì)胞技術(shù)來增強(qiáng)信號(hào)捕獲,或者通過更精確的注入方法來解決,這些方法得到了強(qiáng)有力的實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)的支持。這些努力將有助于緩解與非標(biāo)準(zhǔn)數(shù)據(jù)分布相關(guān)的問題,這些問題限制了現(xiàn)有網(wǎng)絡(luò)方法的使用。另外,建立在更合適的統(tǒng)計(jì)數(shù)據(jù)和算法上的方法可以更好地適應(yīng)dropout值和獨(dú)特的數(shù)據(jù)分布,這是有必要的。
在單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建模中,另一個(gè)重要但不太突出的缺陷是缺少空間信息來約束建模空間。目前許多高通量的單細(xì)胞測(cè)序方法缺乏保持單個(gè)細(xì)胞的空間身份的能力,這降低了準(zhǔn)確解析細(xì)胞網(wǎng)絡(luò)的能力,特別是在開發(fā)階段。各種高通量熒光原位雜交(FISH)方法已被開發(fā)為解決空間信息的工具。假設(shè)細(xì)胞間的距離越近,就越有可能進(jìn)行通信,可以利用成對(duì)單細(xì)胞間的空間距離作為建立更復(fù)雜、更準(zhǔn)確的網(wǎng)絡(luò)模型的先驗(yàn)。最近發(fā)現(xiàn),產(chǎn)生配體的細(xì)胞與表達(dá)相應(yīng)受體的靶細(xì)胞直接相鄰,這一假設(shè)得到了支持。基于單分子魚的方法的另一個(gè)關(guān)鍵優(yōu)勢(shì)是,它們是非常定量的,并且不會(huì)出現(xiàn)中斷,而這種中斷會(huì)困擾基于高通量單細(xì)胞測(cè)序方法。在空間單細(xì)胞方法中,也可以將表型(即行為)與細(xì)胞激活(即cFos)結(jié)合,在假設(shè)特定表型或刺激中活躍的細(xì)胞更有可能進(jìn)行交流的前提下,整合到模型中。此前,Moffitt等人曾使用這種方法來識(shí)別在養(yǎng)育過程中激活的神經(jīng)元。因此,將單細(xì)胞測(cè)序方法與高通量單分子成像相結(jié)合,在提高單細(xì)胞分辨率下的網(wǎng)絡(luò)建模方面具有巨大潛力。盡管有潛力,但使用空間數(shù)據(jù)構(gòu)建GRNs仍存在局限性和復(fù)雜性。首先,基于單分子fish方法的細(xì)胞分割是非平凡的,沒有它GRN的構(gòu)建是不可能的。此外,單個(gè)圖像承載有限的動(dòng)態(tài)細(xì)胞景觀表示。事實(shí)上,許多這些技術(shù)只能實(shí)現(xiàn)單個(gè)細(xì)胞的成像深度,因此它本質(zhì)上是一個(gè)給定時(shí)間的二維快照,可能無法捕捉到在成像平面和時(shí)間框架之外的細(xì)胞動(dòng)態(tài)。
目前,大多數(shù)方法都是為scRNAseq設(shè)計(jì)的,需要結(jié)合其他單細(xì)胞組學(xué)指標(biāo)(遺傳、表觀遺傳和蛋白質(zhì))的方法。這與大組織GRN推斷所面臨的挑戰(zhàn)相同,而多組學(xué)集成和建模的最新進(jìn)展可能為單細(xì)胞多組學(xué)建模提供指導(dǎo)。
最后,從經(jīng)驗(yàn)數(shù)據(jù)中預(yù)測(cè)的網(wǎng)絡(luò)的準(zhǔn)確性很難評(píng)估,因?yàn)橥ㄟ^在體內(nèi)單個(gè)細(xì)胞中干擾預(yù)測(cè)的調(diào)節(jié)因子進(jìn)行高通量驗(yàn)證比進(jìn)行全身敲除或敲除更具挑戰(zhàn)性。值得肯定的是,新的高通量基因干擾技術(shù),如Perturb-seq 與scRNAseq的結(jié)合,有可能深入了解基因和細(xì)胞之間的真正關(guān)系。來自這些平臺(tái)的數(shù)據(jù)可以作為更合適的基準(zhǔn)數(shù)據(jù)集,通過測(cè)試每種方法檢索擾動(dòng)-響應(yīng)實(shí)驗(yàn)中已知的真實(shí)調(diào)節(jié)關(guān)系或交互關(guān)系的效果,來評(píng)估現(xiàn)有網(wǎng)絡(luò)方法的預(yù)測(cè)。同樣,利用文獻(xiàn)中已知的、經(jīng)過實(shí)驗(yàn)驗(yàn)證的基因-基因、細(xì)胞-細(xì)胞通路可以作為這些方法的基準(zhǔn)。即使在沒有經(jīng)過驗(yàn)證的網(wǎng)絡(luò)連接的情況下,也可以采用基于社區(qū)的方法,通過結(jié)合多種方法推斷出的多個(gè)網(wǎng)絡(luò)來獲得一致的網(wǎng)絡(luò),從而提高網(wǎng)絡(luò)性能。這種方法已經(jīng)被證明對(duì)提高預(yù)測(cè)網(wǎng)絡(luò)的質(zhì)量非常有價(jià)值。
總而言之,我們正在進(jìn)入一個(gè)黃金時(shí)代,在這個(gè)時(shí)代,生物發(fā)現(xiàn)可以以前所未有的分辨率和通量進(jìn)行。單細(xì)胞多組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)建模是解開病理生理學(xué)背后復(fù)雜的分子機(jī)制和指導(dǎo)精準(zhǔn)醫(yī)療的關(guān)鍵工具之一。盡管面臨諸多挑戰(zhàn),但該領(lǐng)域正在迅速發(fā)展,方法創(chuàng)新的大量機(jī)會(huì)等待著更準(zhǔn)確地描繪健康和疾病細(xì)胞的分子圖譜。
<單細(xì)胞時(shí)代 · 2021春節(jié)系列> 是參考學(xué)術(shù)或媒體文章整理而來,個(gè)人水平有限,錯(cuò)訛難免,還請(qǐng)讀者諸君批評(píng)指正。內(nèi)容均為個(gè)人觀點(diǎn),不代表任何單位,也不構(gòu)成就業(yè)或投資建議,圖片來自網(wǎng)絡(luò),侵刪。