title:scenic: single-cell regulatory network inference and clustering
journal:Nature methods
IF:28.46
概述:SCENIC是一個基于計算和機器學習開發的通過順式調控分析來對單細胞數據中的轉錄因子調控網絡和細胞狀態進行鑒定。開發者們認為某個狀態下的細胞的轉錄狀態是由它上游的轉錄因子和共調因子(cofactor)以及這些下游的靶基因組成的基因調控網絡(gene regulatory network,GRN)來決定的。目前很多單細胞的鑒定方法都是基于單個基因或者markergene的表達,而作者提出使用轉錄調控網絡來確定細胞狀態可能會有更好的效果。
SCENIC的操作主要分為三個流程,第一是使用GENIE3來確定與轉錄因子共表達的基因(注意是共表達),這只是初步篩選,共表達分析同時會得到一些假陽性和間接的作用的基因,因此第二步是使用RcisTarget通過motif分析來確定真正的轉錄因子和對應的靶基因,把其他的富集不顯著或者沒有motif數據支持的數據刪除,同時作者把最終獲得的轉錄因子和靶基因的組合成為調節子(regulons)。第三步是使用AUCell的算法來對每一組regulons在每一個細胞中的轉錄活性進行打分,通過打分的高低來確定每個細胞中特有的轉錄模式,通過設定閾值,可以得到一個二維的矩陣,用于下游分析,比如聚類分析。這種基于轉錄調控對細胞進行分類的方法被認為是相對于使用單個基因表達更穩健的鑒定方法。
作者在之后的實驗中分析了幾組單細胞數據,分別模擬了SCENIC在處理全數據集,低覆蓋數據集,和小數據集中的表現能力,發現這種方法在“預測”一些已知的轉錄因子方面具有很好的效果,甚至比一些目前標準的方法還要好。作者使用了人和鼠的腦部單細胞數據用該方法進行分析,發現了基于Dlx1/2在兩個物種中共同調控的靶基因,同時進行聚類分析,發現聚類想過很好。因為腫瘤細胞存在變異,在使用算法聚類過程中比正常狀態的細胞聚類更有挑戰性,作者使用這個方法分析了少膠質母細胞瘤數據集,發現SCENIC可以很好的處理這類細胞的分簇,并鑒定出一些已知的轉錄因子。同時作者發現在腫瘤進展(發育軌跡)過程中,會有一些轉錄因子在其中起作用。另外,傳統的去除批次效應的方法需要提供參數(根據經驗),而該方法在去除批次效應時是根據生物學特征自動去除的。
方法學:SCENIC的工作流程是由四個R包完成的,包括GENIE3、RcisTarget、AUCell、GRNBoost,其中最后一個R包等價于GENIE3,是用來處理大的數據集的。SCENIC code and tutorials are available at http://scenic.aertslab.org
GENIE3,一個從基因表達數據中推測基因調控網絡的方法,它采用隨機森林的模型。不同的決策樹會對每個轉錄因子針對假定的靶基因予以權重估計,選取最高的權重作為TF的調控連接。GENIE3的輸入文件是一個表達矩陣,一般使用raw counts或者UMI,也可以用TPM等數據,但是可能會損失信息。輸出文件是一個包含了基因、基因的潛在的調控因子,及二者的關聯(一個權重IM值),我們一般通過設定IM閾值》0.001來確定顯著性的共表達信息。最后,一個基因集最少要有20個基因用于下游分析。
RcisTarget,一個用于motif富集分析和候選轉錄因子篩選的R包,它主要基于兩步方法,第一步是先挑選出顯著的具有代表性的位于轉錄起始位點的motif,這步操作是基于一個收錄全基因組跨物種的motif數據庫來實現的,這個數據庫中分數高于30的motif會被留下用作后續分析,第二步是對保留下來的motif做富集分析,富集的方法是i-cirTarget或者是i-Regulon(cytoscape)。最終,所有通過motif 富集的TF modules被整合作為一個完整的輸出。
AUCell,是一個打分軟件,通過分數的高低來確定每個細胞內特有的轉錄調控網絡。AUCell的輸入是一個基因集,輸出是每個細胞中對每個基因集的打分。調節子在細胞中的富集程度是通過AUC的線下面積決定的,其中x軸為某個細胞中基因按照表達值排列的秩次信息,?y-axis is the number of genes recovered from the input set,AUCell then uses the AUC to calculate whether a critical subset of the input gene set is enriched at the top of the ranking for each cell。最后文件的輸出是一個打分矩陣,我們可以直接使用上面的連續的打分數值對細胞進行聚類,也可以使用一個cutoff值轉化成(0,1)二維矩陣,這個cutoff值可以是自動生成的,也可以手動設置。
下游分析,AUC輸出的矩陣中每行是調節子,每列是細胞名 ,可以使用Rtsne等方法對細胞進行降維可視化,并進一步分簇。
有關文中示例數據集中基因和樣本的篩選:cell,3 UMI counts × 1% of cells = minimum xxx counts per gene