單細胞轉錄組學習筆記-1-課程框架介紹

劉小澤寫于19.6.10-課程框架介紹

筆記目的:根據生信技能樹的單細胞轉錄組課程探索smart-seq2技術相關的分析技術
課程鏈接在:http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53

整個課程的框架

分為了5個單元,目前更新了3個單元,其中第一單元為背景介紹,包括單細胞轉錄組近10年的發展歷程,以及兩大主流技術smart-seq2(力求檢測到單個細胞的基因數量)和10x(追求檢測到的細胞數量)的介紹;第二單元加入了常規轉錄組的分析流程;第三單元重點利用smart-seq2技術得到的結果,結合三個R包進行分析;未來第4個單元將會整合公共數據庫(TCGA、METABRIC)以及文獻中的數據集進行整合分析;最后一部分就是展望,介紹10X的數據分析

蓬勃發展的單細胞轉錄組

與普通bulk轉錄組最大的區別就是:普通的是以一群細胞為一個樣本,最后得到結果是一個均值,而單細胞將精度提高,將一個細胞作為一個樣本,從而可以看出細胞的異質性

目前單細胞領域文章發表量迅速升高,有的團隊一年可以出8-9篇CNS,最著名就是北大的湯富酬教授研究發育生物學領域,另外腫瘤、免疫研究相關也十分火熱

不管怎樣,單細胞轉錄組數據到了生信工程師手中,即使生物背景知識可能不完全理解,但他確實可以通過數據分析去說明某些事情。

推薦一個網站:https://omictools.com/single-cell-rna-seq-category

首先原始數據產出就有兩種主流途徑:測更多的細胞(以10X為主打)和測更多的基因(以smart-seq2為主打);

然后數據就要經過一系列的質控才能開始上游分析,也就是預處理階段 ,也是兩種方法:UMI、ERCC。因為單細胞精度太高,每個細胞都是獨特的,和普通的Bulk RNA-seq不同,材料不容易獲得,不太好做重復,因此通過生物學重復來評價技術手段/數據質量的方法不靠譜。

  • UMI即unique molecular identifier,是一段隨機序列,每一個DNA分子都有自己的UMI序列。可以大大降低PCR誤差(比如:原來兩個樣本中某基因表達量相同,但是由于兩個樣本擴增效率不同,樣本1為99%,樣本2只有95%,那么同時擴增40個循環,這同一個基因就有了0.99^40 / 0.95^40 = 5.2倍差異,因此本來沒有差異也會因為外界因素擴增效率的影響而產生“假陽性”);設計不同標簽的數量,大大超過待擴增的轉錄本,產生獨特標記的分子,并允許控制擴增偏差【例如10-mer的UMI,就會有 4的十次方 約等于100萬種變化】
  • ERCC就是外源RNA對照聯盟開發的人工設計好的已知序列和數量的mRNA,高的ERCC含量與低質量數據相關,并且通常是排除的標準

關于QC的注意點:
QC不是僅僅對于下機的fq數據有效,它要在每一個分析環節都有體現。
主要包括:

  • 一般的diagnostic plots: GC content, adapter, kmer, duplicated, base pair quality
  • mapping reads/rate
  • total sequencing reads (library size)
  • the number of detected genes:檢測dropouts,也就是實際有表達卻沒被檢測到的基因
  • ERCC spike-ins content
  • the percentage of housekeeping genes, cell cycle genes, highly expressed genes, mitochondrial genes
  • overall gene expression patterns

質控的表達矩陣要進行歸一化,因為不同的細胞有不同特征,另外實驗條件也不同;這對于解釋單細胞數據是至關重要的。單細胞的樣本量相比bulk實在小太多,因此更容易引入技術噪音,這個必須去除;

加入了降維這重要的一步,因為細胞數量太多,也就是要分析的樣本數量要幾百甚至幾千,于是會產生幾百或幾千的維度(可以試想一下常見的三維、四維空間);

找差異基因、找marker基因(和差異基因不同,它不需要有差異,只需要有重要的生物學意義)、根據基因重要性進行細胞分群

看文獻

構建文庫

綜述:Comparative Analysis of Single-Cell RNA Sequencing Methods. 2017, (doi: 10.1016/j.molcel.2017.01.023.)

涉及到了6中文庫構建方法(CEL-seq2, Drop-seq, MARS-seq, SCRB-
seq, Smart-seq, and Smart-seq2),可以再結合相關的每一個文庫找6篇文章
文章發現:Smart-seq2可以在每個細胞中找到最多的基因,同樣費用比較高;檢測少量細胞時,MARS-seq、SCRB-seq、Smart-seq2更有效

歸一化

文獻1:Assessment of Single Cell RNA-Seq Normalization Methods,2017 (doi: 10.1534/g3.117.040683)

評價了幾種歸一化方法:

  • fragments per kilobase of transcript per million mapped
    reads (FPKM)(Mortazavi et al., 2008)
  • upper quartile (UQ)(Bullard et al., 2010)
  • Trimmed mean of M-values (TMM)(Robinson and Oshlack, 2010)
  • DESeq(Love et al.,2014)
  • removed unwanted variation (RUV)(Risso et al., 2014)
  • gamma regression model (GRM)(Ding et al., 2015).

文獻2:Performance Assessment and Selection of Normalization Procedures for Single-Cell RNA-Seq, 2019 (DOI:https://doi.org/10.1016/j.cels.2019.03.010)

主要研究了scone方法:a flexible framework for assessing performance based
on a comprehensive panel of data-driven metrics

(http://bioconductor.org/packages/scone/)

另外方法還有很多,比如:LSF(Lun Sum Factors),BigNorm, Scnorm, BASiCS, RLE(size factor relative log expression)

降維

PDF: https://lib.ugent.be/fulltxt/RUG01/002/349/740/RUG01-002349740_2017_0001_AC.pdf 值得好好閱讀,講了許多關于降維原理和應用的知識

文中1.5.1部分(Clustering high-dimension to identify subtypes)寫出:

Importantly, the reduced dimensionality data are less noisy than the high-dimensional data bust lose some of the biological variance.

文章1:PCA, MDS, k-means, Hierarchical clustering and heatmap.

文章2:Outlier Preservation by Dimensionality Reduction Techniques
"MDS best choice for preserving outliers, PCA for variance, & T-SNE for clusters"

鑒定細胞群

每個術語都對應一篇文獻

  • 降維:PCA、tSNE、DM(Diffusion maps)
  • feature selection:M3Drop(Michaelis-Menten Modelling of Dropouts)、HVG(Highly variable genes)、Spike-in based methods、Correalated expression
  • Seurat:is an R package designed for the analysis and visualization of single cell RNA-seq data. It contains easy-to-use implementations of commonly used analytical techniques, including the identification of highly variable genes, dimensionality reduction (PCA, ICA, t-SNE), standard unsupervised clustering algorithms (density clustering, hierarchical clustering, k-means), and the discovery of differentially expressed genes and markers.
  • SC3:SC3 achieves high accuracy and robustness by consistently integrating different clustering solutions through a consensus approach. Tests on twelve published datasets show that SC3 outperforms five existing methods while remaining scalable, as shown by the analysis of a large dataset containing 44,808 cells. Moreover, an interactive graphical implementation makes SC3 accessible to a wide audience of users, and SC3 aids biological interpretation by identifying marker genes, differentially expressed genes and outlier cells.
  • tSNE+kmeans
  • SNN-Clip: doi: 10.1093/bioinformatics/btv088
  • SINCERA: SINCERA: A Pipeline for Single-Cell RNA-Seq Profiling Analysis.

綜述:A systematic performance evaluation of clustering methods for single-cell RNA-seq data (SC3 and Seurat show the most favorable results)

關于各種單細胞工具:https://www.scrna-tools.org/
文章在:Exploring the single-cell RNA-seq analysis landscape with the scRNA-tools database

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,363評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,497評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,305評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,962評論 1 311
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,727評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,193評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,257評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,411評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,945評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,777評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,978評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,519評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,216評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,657評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,960評論 2 373

推薦閱讀更多精彩內容