作者:ahworld
鏈接:一文了解單細胞基因調控網絡(GRN)
來源:微信公眾號
著作權歸作者所有,任何形式的轉載都請聯系作者。
基因調控網絡(GRN)決定并維持cell-type-specific的轉錄狀態,這反過來又構成了細胞形態和功能的基礎。每種細胞類型或穩定狀態均由一組特異的轉錄因子與其靶標基因組合構成,在這個組合中活躍的轉錄因子(TFs)與基因組中的一組順式調節區域相互作用并與染色質結構相互作用,從而產生特定的基因表達譜。
活性TFs及其靶基因的組合通常表示為GRNs
。探索GRNs是基因組研究領域的主要挑戰之一。一旦確定了驅動并維持細胞狀態行為的關鍵regulators,它們最終就可以用來做干擾這些調控過程的切入點。比如,結合一組特異的TFs組合,將成纖維細胞重編程為誘導性多能干細胞(iPS);許多其他的重編程途徑也是通過特定的TFs組合驅動一個GRN來促使細胞狀態的改變;最近在癌癥治療中進行了嘗試,使癌細胞轉成一種易于受特定藥物侵害的狀態。
基于大規模轉錄組和表觀基因組數據來計算預測GRNs是一個廣泛研究的領域。但是諸如microarrays, RNA sequencing (RNA-seq), DHS-seq, ATAC-seq或者different methylation-seq methods等等,這些bulk技術衡量的是組織或樣本中所有細胞的平均信號,在許多情況下,這種信號是由多種細胞類型組成的。雖然在某些情況下可以從組織中提取特定的細胞類型,例如通過FACS分選,但這需要特定標記的先驗知識,并且無法識別新的細胞狀態。利用單細胞技術,我們現在可以從單個細胞中收集組學數據,從而有了前所未有的機會來研究GRNs的異質性,并且揭示基因表達的隨機(概率)性質和潛在的調控程序。由于這些原因,調節基因組學領域的研究正在大規模轉向采用單細胞方法。
2018年發表的一篇綜述
Fiers M W E J, Minnoye L, Aibar S, et al. Mapping gene regulatory networks from single-cell omics data[J]. Briefings in functional genomics, 2018, 17(4): 246-254.
比較全面的介紹了目前GRN的發展。
在這篇文章,作者討論了最近發表的從單細胞轉錄組學數據推斷GRNs的方法。與bulk data相比應該如何應對噪音水平、數據稀疏性以及數據量的增加的挑戰。作者還討論了如何使用單細胞表觀基因組學的新技術(例如單細胞ATAC-seq和單細胞DNA甲基化譜圖)來破譯基因調控過程。作者期待著單細胞多組學和微擾技術的應用,這些技術將來可能在GRNs推斷中發揮重要作用。
Introduction
在背景介紹部分,作者介紹了如何利用單細胞多組學技術以結合算法,從不同層面闡釋調控程序:從調控區的染色質狀態到GRNs。
- 以目前應用最廣的scRNA-seq開始,介紹如何將其用于檢測一組共同被調控的基因集,并推斷出潛在的主要的regulators。
- 此外,作者描述了最近發表的研究是如何利用GRNs來進行細胞聚類并細胞狀態的轉換。
- 接下來,作者討論了單細胞表觀基因組分析的進展,這些進展提供了研究基因調控的不同方法。詳細介紹了單細胞染色質可及性、單細胞甲基化以及怎樣整合多組學數據到每個細胞。每個細胞多組學數據的整合對單個細胞中GRNs的整合預測十分誘人,甚至可能使基因表達預測模型的最終目標觸手可及。
- 最后,作者介紹了單細胞擾動分析,可能用于研究擾動GRNs(TF或增強子水平)對轉錄組的影響。這些微擾方法可用于驗證預測,并且在不久的將來,它們將成為用于推斷高精度GRNs的強大工具。
GRN inference from scRNA-seq data
scRNA-seq是當今最常用的單細胞測序技術。湯富酬最早在2009年第一個發表之后,許多其他的scRNA-seq技術相繼被開發出來。大多數方法遵循類似的方法,將改進的RNA-seq方案應用于以液滴或微孔分離的單個細胞。
但是,從單個細胞獲得的轉錄組目前不如其對應的bulk樣本那樣靈敏或提供更多信息:由于生物學差異(例如,隨機性,爆發)和技術局限性的結合,只對一個細胞中的總mRNA進行捕獲,擴增和測序。
由于技術的局限性而未被檢測到表達的基因稱為缺失(dropouts),缺失的水平由每個細胞檢測到的基因數的中位數來反映(盡管不同細胞類型可能導致差異),并且通常與實驗規模(即測序的細胞數)進行權衡。
大量單細胞的測序,對于統計區分不同的細胞狀態有很大幫助,并可能補償某些噪音,但是很難獲得低表達基因的結論。在評估TF時,這可能是一個特殊的問題,這些TF通常是低表達的。
數據處理過后,scRNA-seq數據會做成行列為基因和細胞的表達矩陣,矩陣中的數值為表達值。大多數scRNA-seq分析的重點是確定組織或癌癥中細胞亞群的類型或狀態,或研究動態變化過程,例如細胞分化、細胞周期或刺激反應。
用于解決這些問題的計算方法包括:
從轉錄組學數據推斷GRNs通常依賴于可以從表達模式中提取調控信息的假設。例如,具有相似行為的那些基因受共同機制(例如特異性的TF)的調節。依據這樣的假設,調控網絡(GRN)推斷的目的可以是:
- 對導致細胞從一種狀態轉變成另一種狀態的TF激活事件順序進行建模
- 確定TFs潛在的靶標基因
- 鑒定一個細胞狀態能夠維持所依賴的特定主要regulators(或regulators組合)。
大多單細胞GRNs推斷方法(下圖)基于此,且與bulk數據開發的工具[123]原理相同。
一類GRN推斷方法著重于解密在動態過程中,細胞從一種狀態轉換到另一種狀態所需的TF邏輯組合
這通常是通過布爾網絡模型實現的。例如Single-Cell Network Synthesis (SCNS) toolkit和BoolTraineR,通過將每個細胞進行狀態分類(基于TF表達)并連接有限數量差異的細胞來構建布爾網絡。生成的狀態圖能夠讓我們找到參與細胞狀態改變的關鍵TFs,并可用于預測TF的過表達或敲除后的效果。但是,這不涉及有關靶基因的信息。
另外,網絡規模的增加會導致計算量的迅速增加。因此,這些工具只能模擬少數基因(<100)。所以通常選擇相關TFs子集,再結合這些方法應用于動態過程的軌跡推斷步驟。
布爾網絡的另一個缺點是將表達水平轉換為二進制狀態(基于閾值分為active/not active),這使其無法可靠地建立劑量反應關系模型,并且對dropouts很敏感。
這些方法的應用實例包括對iPS的重編程建模以及Moignard等人的工作,作者對血液發育的調控網絡進行了建模,使用的是擴散圖和SCNS toolkit分支軌跡。
調控網絡推斷的另一種方法是:將TF與候選靶基因連接,最終目的是確定驅動特定細胞狀態的“主要regulators”
此類別中的一種主要方法是基于共表達分析并已廣泛用于bulk基因表達數據,例如GENIE3和WGCNA。最近的研究已經成功地將相似的方法應用于單細胞數據。使用這些方法時需要考慮的要素包括以下假設:
- regulator表達水平的變化直接影響下游靶標的表達
- 忽略了轉錄后調控
- 忽略了并非所有co-varying基因都一定是直接作用的靶標
- 這些方法對normalization和batch-effects敏感,可能會引入人工協變量
基于共表達算法的其中一部分算法專門針對動態過程中的單細胞轉錄組數據構建GRN模型。這些方法結合細胞沿時間軸的初始順序(或預測的軌跡),同時對基因和調節子之間的表達動態進行建模,使用的技術包括:(non-linear) correlation、regression、covariance analysis 、multivariant information 、ordinary differential equation (ODE)模型以及其他的模型。
ODE模型是這些模型中的一個特殊類別,它在時間序列上重構表達模式以檢測和合并相似的模式。ODE系統允許推斷某些因果關系,并且比其他方法更現實更詳細。但是,它需要大量輸入數據才能可靠地估計其參數,并且計算量很大,因此只能將它們應用于有限數量的TFs和靶標基因。
在研究一個沒有軌跡信息的系統時,需要采取不同的方法。例如由多種不同(靜態)細胞類型組成的組織。復雜組織異質性的研究通常專注于識別細胞類型以及表征它們的基因markers,但是進一步的調控分析并不常見。最新工具試圖彌補這種gap,例如SINCERA和ACTION這兩個scRNA-seq 分析流程可以幫助尋找cell-type-specific的關鍵調控因子。
作者的實驗室開發的SCENIC直接從數據中推斷出GRN,通過將共表達與基序富集分析相結合,鑒定TFs與靶標基因之間調控關系。每一個細胞中的GRN活性用于鑒定細胞狀態,關鍵TFs能夠更精確地表征每個狀態的特征。
總之,早期結果表明,可以利用單細胞轉錄組學數據重建GRNs。進一步,使用(預測的)調控關系對單細胞數據集進行聚類是有利的,這對于理解細胞異質性至關重要
Single-cell epigenomics
單細胞表觀基因組學提供了轉錄狀態的補充描述,現在被表示為表觀基因組圖譜(epigenomic landscapes)。轉錄組是轉錄、轉錄后調控和RNA降解的結果。表觀基因組提供了一個更接近轉錄過程的視角。一個表觀基因組揭示了在每個狀態下哪些調節區(例如增強子和啟動子)起作用。單細胞表觀基因組勢必會增加對細胞(轉錄)異質性的了解,并在繪制GRNs時為scRNA-seq提供有價值的補充。
盡管做單細胞表觀基因組學的方法很多,這里主要討論是ATAC-seq和DNA甲基化,因為這些方法已應用于多種生物系統。
有兩種實驗方法可以執行scATAC-seq,一種是基于微流控平臺(Fluidigm C1)進行物理分離的單細胞,另一種是基于組合索引(combinatorial indexing)的(sciATAC-seq),兩種方法均源自原始的ATAC-seq協議,使用多能性Tn5轉座酶同時切割和標記可及的染色質。目前10X Genomics 公司已經推出商業化的10X單細胞ATAC-seq解決方案。
關于從單細胞表觀基因組及多組學聯合揭示GRNs的方法及應用,總體滯后于scRNA-seq-based方法,這和各組學數據的獲得難易程度及組學特點有很大關系,具體內容我在這里不再詳述,大家有興趣可以閱讀原文獻。
文章要點
- 調控基因組學領域正在朝著單細胞分辨率發展
- GRNs可以根據scRNA-seq數據進行逆向推斷
- Single-cell GRNs可用于識別穩定的細胞狀態和細胞狀態轉變
- 單細胞表觀基因組學,單細胞擾動
分析和單細胞多組學提供令人興奮的
揭開轉錄程序的機會 - 從scRNA-seq數據推斷GRNs的方法發展迅速;從單細胞表觀基因組學數據中揭示調控過程的方法比較滯后