2019-06-27 scenic: single-cell regulatory network inference and clustering

title:scenic: single-cell regulatory network inference and clustering

journal:Nature methods

IF:28.46

概述:SCENIC是一個基于計算和機器學習開發的通過順式調控分析來對單細胞數據中的轉錄因子調控網絡和細胞狀態進行鑒定。開發者們認為某個狀態下的細胞的轉錄狀態是由它上游的轉錄因子和共調因子(cofactor)以及這些下游的靶基因組成的基因調控網絡(gene regulatory network,GRN)來決定的。目前很多單細胞的鑒定方法都是基于單個基因或者markergene的表達,而作者提出使用轉錄調控網絡來確定細胞狀態可能會有更好的效果。

SCENIC的操作主要分為三個流程,第一是使用GENIE3來確定與轉錄因子共表達的基因(注意是共表達),這只是初步篩選,共表達分析同時會得到一些假陽性和間接的作用的基因,因此第二步是使用RcisTarget通過motif分析來確定真正的轉錄因子和對應的靶基因,把其他的富集不顯著或者沒有motif數據支持的數據刪除,同時作者把最終獲得的轉錄因子和靶基因的組合成為調節子(regulons)。第三步是使用AUCell的算法來對每一組regulons在每一個細胞中的轉錄活性進行打分,通過打分的高低來確定每個細胞中特有的轉錄模式,通過設定閾值,可以得到一個二維的矩陣,用于下游分析,比如聚類分析。這種基于轉錄調控對細胞進行分類的方法被認為是相對于使用單個基因表達更穩健的鑒定方法。

作者在之后的實驗中分析了幾組單細胞數據,分別模擬了SCENIC在處理全數據集,低覆蓋數據集,和小數據集中的表現能力,發現這種方法在“預測”一些已知的轉錄因子方面具有很好的效果,甚至比一些目前標準的方法還要好。作者使用了人和鼠的腦部單細胞數據用該方法進行分析,發現了基于Dlx1/2在兩個物種中共同調控的靶基因,同時進行聚類分析,發現聚類想過很好。因為腫瘤細胞存在變異,在使用算法聚類過程中比正常狀態的細胞聚類更有挑戰性,作者使用這個方法分析了少膠質母細胞瘤數據集,發現SCENIC可以很好的處理這類細胞的分簇,并鑒定出一些已知的轉錄因子。同時作者發現在腫瘤進展(發育軌跡)過程中,會有一些轉錄因子在其中起作用。另外,傳統的去除批次效應的方法需要提供參數(根據經驗),而該方法在去除批次效應時是根據生物學特征自動去除的。

方法學:SCENIC的工作流程是由四個R包完成的,包括GENIE3、RcisTarget、AUCell、GRNBoost,其中最后一個R包等價于GENIE3,是用來處理大的數據集的。SCENIC code and tutorials are available at http://scenic.aertslab.org

GENIE3,一個從基因表達數據中推測基因調控網絡的方法,它采用隨機森林的模型。不同的決策樹會對每個轉錄因子針對假定的靶基因予以權重估計,選取最高的權重作為TF的調控連接。GENIE3的輸入文件是一個表達矩陣,一般使用raw counts或者UMI,也可以用TPM等數據,但是可能會損失信息。輸出文件是一個包含了基因、基因的潛在的調控因子,及二者的關聯(一個權重IM值),我們一般通過設定IM閾值》0.001來確定顯著性的共表達信息。最后,一個基因集最少要有20個基因用于下游分析。

RcisTarget,一個用于motif富集分析和候選轉錄因子篩選的R包,它主要基于兩步方法,第一步是先挑選出顯著的具有代表性的位于轉錄起始位點的motif,這步操作是基于一個收錄全基因組跨物種的motif數據庫來實現的,這個數據庫中分數高于30的motif會被留下用作后續分析,第二步是對保留下來的motif做富集分析,富集的方法是i-cirTarget或者是i-Regulon(cytoscape)。最終,所有通過motif 富集的TF modules被整合作為一個完整的輸出。

AUCell,是一個打分軟件,通過分數的高低來確定每個細胞內特有的轉錄調控網絡。AUCell的輸入是一個基因集,輸出是每個細胞中對每個基因集的打分。調節子在細胞中的富集程度是通過AUC的線下面積決定的,其中x軸為某個細胞中基因按照表達值排列的秩次信息,?y-axis is the number of genes recovered from the input set,AUCell then uses the AUC to calculate whether a critical subset of the input gene set is enriched at the top of the ranking for each cell。最后文件的輸出是一個打分矩陣,我們可以直接使用上面的連續的打分數值對細胞進行聚類,也可以使用一個cutoff值轉化成(0,1)二維矩陣,這個cutoff值可以是自動生成的,也可以手動設置。

下游分析,AUC輸出的矩陣中每行是調節子,每列是細胞名 ,可以使用Rtsne等方法對細胞進行降維可視化,并進一步分簇。

有關文中示例數據集中基因和樣本的篩選:cell,3 UMI counts × 1% of cells = minimum xxx counts per gene


workflow
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,362評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,013評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,346評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,421評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,146評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,534評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,585評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,767評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,318評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,074評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,258評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,828評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,486評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,916評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,156評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,993評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,234評論 2 375

推薦閱讀更多精彩內容