單細胞轉錄組學習筆記-1-課程框架介紹

劉小澤寫于19.6.10-課程框架介紹

筆記目的：根據生信技能樹的單細胞轉錄組課程探索smart-seq2技術相關的分析技術
課程鏈接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53

整個課程的框架

分為了5個單元，目前更新了3個單元，其中第一單元為背景介紹，包括單細胞轉錄組近10年的發展歷程，以及兩大主流技術smart-seq2（力求檢測到單個細胞的基因數量）和10x（追求檢測到的細胞數量）的介紹；第二單元加入了常規轉錄組的分析流程；第三單元重點利用smart-seq2技術得到的結果，結合三個R包進行分析；未來第4個單元將會整合公共數據庫(TCGA、METABRIC)以及文獻中的數據集進行整合分析；最后一部分就是展望，介紹10X的數據分析

蓬勃發展的單細胞轉錄組

與普通bulk轉錄組最大的區別就是：普通的是以一群細胞為一個樣本，最后得到結果是一個均值，而單細胞將精度提高，將一個細胞作為一個樣本，從而可以看出細胞的異質性

目前單細胞領域文章發表量迅速升高，有的團隊一年可以出8-9篇CNS，最著名就是北大的湯富酬教授研究發育生物學領域，另外腫瘤、免疫研究相關也十分火熱

不管怎樣，單細胞轉錄組數據到了生信工程師手中，即使生物背景知識可能不完全理解，但他確實可以通過數據分析去說明某些事情。

推薦一個網站：https://omictools.com/single-cell-rna-seq-category

首先原始數據產出就有兩種主流途徑：測更多的細胞(以10X為主打)和測更多的基因(以smart-seq2為主打)；

然后數據就要經過一系列的質控才能開始上游分析，也就是預處理階段 ，也是兩種方法：UMI、ERCC。因為單細胞精度太高，每個細胞都是獨特的，和普通的Bulk RNA-seq不同，材料不容易獲得，不太好做重復，因此通過生物學重復來評價技術手段/數據質量的方法不靠譜。

UMI即unique molecular identifier，是一段隨機序列，每一個DNA分子都有自己的UMI序列。可以大大降低PCR誤差（比如：原來兩個樣本中某基因表達量相同，但是由于兩個樣本擴增效率不同，樣本1為99%，樣本2只有95%，那么同時擴增40個循環，這同一個基因就有了0.99^40 / 0.95^40 = 5.2倍差異，因此本來沒有差異也會因為外界因素擴增效率的影響而產生“假陽性”）；設計不同標簽的數量，大大超過待擴增的轉錄本，產生獨特標記的分子，并允許控制擴增偏差【例如10-mer的UMI，就會有 4的十次方 約等于100萬種變化】
ERCC就是外源RNA對照聯盟開發的人工設計好的已知序列和數量的mRNA，高的ERCC含量與低質量數據相關，并且通常是排除的標準

關于QC的注意點：
QC不是僅僅對于下機的fq數據有效，它要在每一個分析環節都有體現。
主要包括：

一般的diagnostic plots: GC content, adapter, kmer, duplicated, base pair quality

mapping reads/rate

total sequencing reads (library size)

the number of detected genes：檢測dropouts，也就是實際有表達卻沒被檢測到的基因

ERCC spike-ins content

the percentage of housekeeping genes, cell cycle genes, highly expressed genes, mitochondrial genes

overall gene expression patterns

質控的表達矩陣要進行歸一化，因為不同的細胞有不同特征，另外實驗條件也不同；這對于解釋單細胞數據是至關重要的。單細胞的樣本量相比bulk實在小太多，因此更容易引入技術噪音，這個必須去除；

加入了降維這重要的一步，因為細胞數量太多，也就是要分析的樣本數量要幾百甚至幾千，于是會產生幾百或幾千的維度(可以試想一下常見的三維、四維空間)；

找差異基因、找marker基因(和差異基因不同，它不需要有差異，只需要有重要的生物學意義)、根據基因重要性進行細胞分群

看文獻

構建文庫

綜述：Comparative Analysis of Single-Cell RNA Sequencing Methods. 2017, （doi: 10.1016/j.molcel.2017.01.023.）

涉及到了6中文庫構建方法（CEL-seq2, Drop-seq, MARS-seq, SCRB-
seq, Smart-seq, and Smart-seq2），可以再結合相關的每一個文庫找6篇文章
文章發現：Smart-seq2可以在每個細胞中找到最多的基因，同樣費用比較高；檢測少量細胞時，MARS-seq、SCRB-seq、Smart-seq2更有效

歸一化

文獻1：Assessment of Single Cell RNA-Seq Normalization Methods，2017 (doi: 10.1534/g3.117.040683)

評價了幾種歸一化方法：

fragments per kilobase of transcript per million mapped
reads (FPKM)(Mortazavi et al., 2008)
upper quartile (UQ)(Bullard et al., 2010)
Trimmed mean of M-values (TMM)(Robinson and Oshlack, 2010)
DESeq(Love et al.,2014)
removed unwanted variation (RUV)(Risso et al., 2014)
gamma regression model (GRM)(Ding et al., 2015).

文獻2：Performance Assessment and Selection of Normalization Procedures for Single-Cell RNA-Seq, 2019 (DOI:https://doi.org/10.1016/j.cels.2019.03.010)

主要研究了scone方法：a flexible framework for assessing performance based
on a comprehensive panel of data-driven metrics

(http://bioconductor.org/packages/scone/)

另外方法還有很多，比如：LSF(Lun Sum Factors)，BigNorm, Scnorm, BASiCS, RLE(size factor relative log expression)

降維

PDF: https://lib.ugent.be/fulltxt/RUG01/002/349/740/RUG01-002349740_2017_0001_AC.pdf 值得好好閱讀，講了許多關于降維原理和應用的知識

文中1.5.1部分（Clustering high-dimension to identify subtypes）寫出：

Importantly, the reduced dimensionality data are less noisy than the high-dimensional data bust lose some of the biological variance.

文章1：PCA, MDS, k-means, Hierarchical clustering and heatmap.

文章2：Outlier Preservation by Dimensionality Reduction Techniques
"MDS best choice for preserving outliers, PCA for variance, & T-SNE for clusters"

鑒定細胞群

每個術語都對應一篇文獻

降維：PCA、tSNE、DM(Diffusion maps)
feature selection：M3Drop(Michaelis-Menten Modelling of Dropouts)、HVG(Highly variable genes)、Spike-in based methods、Correalated expression
Seurat：is an R package designed for the analysis and visualization of single cell RNA-seq data. It contains easy-to-use implementations of commonly used analytical techniques, including the identification of highly variable genes, dimensionality reduction (PCA, ICA, t-SNE), standard unsupervised clustering algorithms (density clustering, hierarchical clustering, k-means), and the discovery of differentially expressed genes and markers.
SC3：SC3 achieves high accuracy and robustness by consistently integrating different clustering solutions through a consensus approach. Tests on twelve published datasets show that SC3 outperforms five existing methods while remaining scalable, as shown by the analysis of a large dataset containing 44,808 cells. Moreover, an interactive graphical implementation makes SC3 accessible to a wide audience of users, and SC3 aids biological interpretation by identifying marker genes, differentially expressed genes and outlier cells.
tSNE+kmeans
SNN-Clip: doi: 10.1093/bioinformatics/btv088
SINCERA: SINCERA: A Pipeline for Single-Cell RNA-Seq Profiling Analysis.

綜述：A systematic performance evaluation of clustering methods for single-cell RNA-seq data (SC3 and Seurat show the most favorable results)

關于各種單細胞工具：https://www.scrna-tools.org/
文章在：Exploring the single-cell RNA-seq analysis landscape with the scRNA-tools database

最后編輯于：2019.07.07 10:36:04

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,363評論 6贊 532
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,497評論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,305評論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,962評論 1贊 311
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,727評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,193評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,257評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,411評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,945評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,777評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,978評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,519評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,216評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,642評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,878評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,657評論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,960評論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

單細胞轉錄組學習筆記-1-課程框架介紹

單細胞轉錄組學習筆記-1-課程框架介紹

整個課程的框架

蓬勃發展的單細胞轉錄組

看文獻

構建文庫

歸一化

降維

鑒定細胞群

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

單細胞轉錄組學習筆記-1-課程框架介紹

整個課程的框架

蓬勃發展的單細胞轉錄組

看文獻

構建文庫

歸一化

降維

鑒定細胞群

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频