Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)

別人的電子書,你的電子書,都在bookdown一文中推薦過這一篇教程(https://hemberg-lab.github.io/scRNA.seq.course),從2016年一直更新到2018年,是入門單細(xì)胞分析的十分適合的文檔。為了進(jìn)一步促進(jìn)學(xué)習(xí),生信寶典申請并組織翻譯這篇教程,將在公眾號(hào)陸續(xù)推出。最后會(huì)有整合版以網(wǎng)頁和PDF格式發(fā)布于易生信平臺(tái)。

關(guān)于課程

采用高通量測序技術(shù)獲取單細(xì)胞水平的全轉(zhuǎn)錄組數(shù)據(jù)又稱scRNA-seq已應(yīng)用越來越廣泛。scRNA-seq的優(yōu)勢是其同時(shí)具有單細(xì)胞水平的分辨率和基因組范圍的檢測能力,可以解決其他方法如bulk RNA-seq或單細(xì)胞RT-qPCR解決不了的問題。然而,分析單細(xì)胞數(shù)據(jù)需要新的方法,以前用于bulk RNA-seq的一些計(jì)算方法的理論假設(shè)也不再適用。

在這個(gè)課程,我們討論scRNA-seq可以解決的問題,以及可用的計(jì)算和統(tǒng)計(jì)學(xué)方法。原版課程是劍橋大學(xué)生物信息培訓(xùn)中心授課所用, 但文字版教材適用于任何對scRNA-seq分析感興趣的人。課程每年兩次,材料在開課前更新。

計(jì)算工具的數(shù)量增加很快,我們盡力更新至最新技術(shù)。這個(gè)課程的一個(gè)主要限制是我們傾向于使用在R里面實(shí)現(xiàn)并且速度相對快的工具 (其他語言實(shí)現(xiàn)的工具也通用,關(guān)鍵是理解原理)。另外,我們傾向于使用自己或朋友、同事開發(fā)的工具。(譯者注:無可厚非,一是更了解,二是更容易獲取幫助。我們也更傾向于使用自己的繪圖工具ImageGP。)

視頻

視頻課錄制于2017年11月,那時(shí)課程章節(jié)更少一些。視頻在Youtube上,https://www.youtube.com/embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n。

GitHub

https://github.com/hemberg-lab/scRNA.seq.course

Docker 鏡像 (RStudio)

課程可以通過安裝了所有依賴包的RStudio的Docker鏡像重現(xiàn)。

確保你的電腦已安裝了Docker,如果沒有,請參照Docker基礎(chǔ)。運(yùn)行下面命令啟動(dòng)Docker鏡像:

docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio

這條命令會(huì)下載docker鏡像 (看網(wǎng)速快慢,需要一些時(shí)間)。下載完成后,會(huì)啟動(dòng)Rstudio服務(wù)器版 (里面包含了依賴的程序包和數(shù)據(jù))。

接下來就可以在基因組瀏覽器訪問localhost:8787,使用用戶名和密碼rstudio:rstudio登錄網(wǎng)頁版Rstudio (R語言學(xué)習(xí) - 入門環(huán)境Rstudio)。

更多關(guān)于運(yùn)行RStudio docker鏡像的選項(xiàng)見https://hub.docker.com/r/rocker/rstudio-stable/.

譯者注:如果您參加過我們的易生信課程,這些操作都應(yīng)該比較熟悉了。需要注意的是:1. 確認(rèn)8787端口有無被占用,尤其是自己在服務(wù)器運(yùn)行過Rstudio server時(shí)。2. 如果服務(wù)器有外網(wǎng)IP,可以在任何電腦的瀏覽器輸入IP:8787訪問。

譯者注:如果不習(xí)慣Docker,或沒有管理員權(quán)限,自己在Windows下安裝依賴包也不費(fèi)事。

手動(dòng)安裝

如果不使用Docker鏡像,需要克隆或下載course GitHub repository并且在下載后的文件夾中啟動(dòng)R session。并且需要安裝課程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包.

許可

所有課程材料遵循 GPL-3協(xié)議. 任何人都可以閱讀這份材料來學(xué)習(xí)scRNA-seq數(shù)據(jù)分析. 如果應(yīng)用于教學(xué),除了提供合適的引用外,還請聯(lián)系我們 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

課程基礎(chǔ)

課程適用于有Linux/UnixR基礎(chǔ)的朋友 (藍(lán)字可點(diǎn)擊)。

另外,我們也假設(shè)您對常規(guī)轉(zhuǎn)錄組的比對和分析,以及常用的計(jì)算工具比較熟悉 (39個(gè)轉(zhuǎn)錄組分析工具,120種組合評估(轉(zhuǎn)錄組分析工具哪家強(qiáng)-導(dǎo)讀版))。

否則,我們推薦先參加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再參加這個(gè)課程。

譯者注:生物信息程序基礎(chǔ)和常規(guī)轉(zhuǎn)錄組分析的中文版視頻課程見:易生信原創(chuàng)課程 (如果是微信公眾號(hào),后臺(tái)回復(fù) 培訓(xùn)獲取)。

聯(lián)系我們

如果您有任何 評論, 問題建議 請跟我們聯(lián)系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

單細(xì)胞RNA-seq簡介

混合RNA-seq

  • 2000年末的重大技術(shù)突破,取代微陣列表達(dá)芯片被廣泛使用

  • 通過混合大量細(xì)胞獲取足夠RNA用于建庫測序,來定量每個(gè)基因的平均表達(dá)水平

  • 用于比較轉(zhuǎn)錄組,例如比較不同物種的同一組織樣本

  • 量化整體表達(dá)特征,如疾病研究中的表達(dá)模式

  • 研究異質(zhì)系統(tǒng)方面還有力所不及之處,例如對早期發(fā)育的研究,復(fù)雜組織(大腦)的研究

  • 在基因表達(dá)隨機(jī)性研究方面心有余而力不足

scRNA-seq

  • 是一項(xiàng)由湯富酬等人在2009年首次發(fā)表的技術(shù)。文章發(fā)表于Nature Method,測序了7個(gè)單細(xì)胞,兩個(gè)卵裂球,兩個(gè)野生型卵子,兩個(gè)Dicer敲除的卵 子,一個(gè)Ago2敲除的卵子。

  • 這項(xiàng)技術(shù)在2013年被Nature評為年度技術(shù),更簡便的操作流程和較低的測序成本促成單細(xì)胞技術(shù)的廣泛流行。2018年底,單細(xì)胞技術(shù)應(yīng)用于胚胎發(fā)育追蹤評為Science年度突破。

  • 檢測每個(gè)基因在大量細(xì)胞中的表達(dá)水平分布

  • 可以研究細(xì)胞類型特異性轉(zhuǎn)錄調(diào)控的新型生物問題,例如細(xì)胞類型鑒定,細(xì)胞應(yīng)答的異質(zhì)性,細(xì)胞表達(dá)的隨機(jī)性,細(xì)胞間基因調(diào)控網(wǎng)絡(luò)的推斷等

  • 研究中細(xì)胞數(shù)目范圍從100個(gè)變到10^6個(gè)且每年遞增。

  • 目前有許多不同的單細(xì)胞Protocol,例如 SMART-seq2 , CELL-seqDrop-seq

  • 還有商業(yè)平臺(tái),包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。

  • Bulk RNA-seq技術(shù)中一些計(jì)算分析方法可應(yīng)用于單細(xì)胞分析。

  • 多數(shù)情況下單細(xì)胞計(jì)算分析需要調(diào)整現(xiàn)有方法或者開發(fā)新方法

工作流程

image

總體而言,scRNA-seq的實(shí)驗(yàn)方案和bulk RNA-seq的相似。我們將在下一節(jié)一起討論一些最通用的方法。

計(jì)算分析

本課程內(nèi)容是scRNA-seq實(shí)驗(yàn)中得到的數(shù)據(jù)進(jìn)行計(jì)算分析。總體流程如下圖所示,前面三步(黃色)對于任何高通量測序數(shù)據(jù)是通用的,緊隨其后的四步(橙色)是要將傳統(tǒng)RNA-Seq分析中已有的方法和新開發(fā)的方法結(jié)合起來解決scRNA-seq的技術(shù)差異問題,最后的部分(藍(lán)色)是使用專門為scRNA-seq開發(fā)的方法來進(jìn)行生物分析解讀。

image

scRNA-seq分析的綜述有幾篇,包括 Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3) 。

目前還有其他平臺(tái)可以執(zhí)行上述流程圖中的一步或多步操作:

  • Falco:是一個(gè)單細(xì)胞RNA-seq的云處理平臺(tái),更像是一個(gè)流程部署和管理工具,一年多未更新了,一般也用不上。能部署的應(yīng)該都有自己 的一套部署工具,初學(xué)者不需要學(xué)這么復(fù)雜的。有精力,可以學(xué)習(xí)下其部署理念應(yīng)用于自己的流程。

  • SCONE(Single-Cell Overview of Normalized Expression):單細(xì)胞RNA-seq質(zhì)量控制和標(biāo)準(zhǔn)化的R包 (一年多沒更新了, Yosef研究 組2018年在Nature method發(fā)表一個(gè)單細(xì)胞分型的深度學(xué)習(xí)平臺(tái),scVI,效果不錯(cuò),值得嘗試)

image
  • Seurat :單細(xì)胞質(zhì)控,分析和數(shù)據(jù)探索而設(shè)計(jì)的R包,可以完成獲得定量數(shù)據(jù)后的幾乎所有分析。不少文章的幾個(gè)主圖都是來自這個(gè)軟件包 。這個(gè)軟件包可以作為學(xué)習(xí)的入門,官網(wǎng)的教程示例寫的很詳細(xì)。
image
  • ASAP(Automated Single-cell Analysis Pipeline) :是一款單細(xì)胞分析的交互式網(wǎng)絡(luò)平臺(tái)。從基因表達(dá)矩陣開始到后期分析。功能相對比較全,定制化弱一些。學(xué)完這份教程,里面的功能都可以自己實(shí)現(xiàn)。
image

挑戰(zhàn)

Bulk RNA-seq和scRNA-seq的主要差別是每個(gè)測序文庫代表一個(gè)單細(xì)胞還是一群細(xì)胞。比較不同細(xì)胞(不同測序文庫)的結(jié)果需要格外注意。文庫之間差異的主要來源是:

  • 擴(kuò)增效率和擴(kuò)增偏好性(部分文庫可擴(kuò)增多達(dá)100萬倍)

  • 基因 ‘dropouts’: 基因在一個(gè)細(xì)胞中呈現(xiàn)中等表達(dá)水平,但在另一個(gè)細(xì)胞中未檢測到表達(dá),這可能來源于scRNA-seq中RNA總量低導(dǎo)致的擴(kuò)增建庫丟失或RNA表達(dá)的隨機(jī)性。

取自于單獨(dú)一個(gè)細(xì)胞的低轉(zhuǎn)錄本總量是這兩個(gè)文庫差異的一個(gè)主要原因。提高轉(zhuǎn)錄本捕獲效率和降低擴(kuò)增偏好可以降低差異,是目前活躍的研究方向。從后續(xù)課程學(xué)習(xí)中也可以看 到,合適的標(biāo)準(zhǔn)化和校正方法也可以抵消一部分文庫構(gòu)建引入的噪音。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容