回顧一下:什么是單細胞轉錄組測序技術?
細胞異質性是生物組織的普遍特征。由于傳統的轉錄組測序(RNA-Seq)技術的測序水平是在個體或群體水平上對數萬個細胞進行轉錄組測序,因此傳統轉錄組測序技術的測序結果就只能檢測到個體間或者群體間的轉錄組差異,而細胞間的轉錄差異則無法精確地檢測到。而單細胞轉錄組技術則提供了一種在單個細胞水平進行高通量轉錄組測序的一項新技術,能夠有效解決細胞間轉錄組異質性以細胞群間轉錄組異質性的難題。
單細胞轉錄組數據分析的難點主要在于細胞的質量不確定,細胞的數量大,從單細胞測序技術誕生至今,測到的細胞通量越來越高,現在一次單細胞轉錄組測到的細胞數可達100K~200K[1]。因而,對分析人員的要求也越來越高。
雖然單細胞轉錄組的分析不容易,但依然是有清晰的流程噠(見下圖):
接下來我們一起看看,每一步都需要做些啥。
01測序原始數據的處理
測序原始數據通常指測序下機得到的fastq文件,需要經過一定的處理,將其中我們需要的信息,如barcode,UMI以及基因的序列等,給提取出來,方便下一步分析。
最初處理原始數據常用的是perl腳本,后來有了更方便的軟件或工具。目前我們常用的是fastp、 cutadapt、 trimmomatic等分析工具。這步處理主要是為了去除測序時引入的連續的N、低質量reads、以及建庫時引入的接頭序列等。
通過這步分析,我們可以得到關注的barcode、UMI以及基因的序列。
02 獲得表達矩陣
處理完fastq之后,我們需要從中分析出每個細胞中基因表達的信息,即獲得表達矩陣。對于這一步處理,我們常采用的是STAR或者salmon,kallisto等比對工具,將測得的序列片段比對到參考基因組或者轉錄組。同時根據建庫時的barcode白名單對每個真實捕獲到的細胞barcode進行比對,分出每個細胞的基因表達矩陣。
表達矩陣中包含了每個細胞轉錄組中各個基因表達水平的信息,是我們后續各類分析的基礎。
這樣的分析之后,我們可以統計得到細胞的個數,各個細胞表達的基因數等信息。同時,通過對這些信息的統計分析,我們還可以判斷單細胞測序數據整體的質量,為后面的分析步驟提供依據和參考。
單細胞測序數據質控的指標有很多,這里我們來重點看看3個最為常見的指標。
細胞數 Number of Cells
即捕獲到的細胞數,是通過分析與細胞關聯的條形碼的數目計算出來的。根據這個值,我們可以知道這次單細胞測序捕獲了多少細胞。
中值UMI數 Median UMI Counts per Cell
這個指標代表的是每個細胞中被檢測到UMI數據的中位數。UMI是目前許多高通量單細胞測序平臺用到的一種分子標簽,會給細胞中每個被捕獲的mRNA分子打上一個獨特的標簽,用來在分析中校準基因的表達量。通過這個指標,我們可以了解到每個高質量細胞中大概有多少個mRNA分子被捕獲到。
中值基因數 Median Genes per Cell
這個指標代表的是每個細胞中被檢測到基因數目的中位數。雖然人體一共有約2萬個基因,但由于轉錄水平的不同和測序量的限制,每個細胞中能測到的基因只是這2萬個中的一部分——當然,我們希望能測到的基因越多越好。這個指標可以讓我們了解到,在這次單細胞測序實驗中,每個細胞中大概有多少個基因被測到。
03 細胞過濾
雖然上一步中我們得到了所有細胞中基因表達的信息,但并不是每個細胞中信息的質量都符合我們后續分析的標準,因此,我們需要對細胞進行過濾,以便獲得相對完好的細胞。那么,怎樣進行過濾呢?
在單細胞測序分析中,過濾的標準往往是某些特定基因的表達量,用來鑒別出質量欠佳的細胞,將其過濾掉。其中最重要的參考標準是基因數以及線粒體基因表達情況。
以下3幅小提琴圖,分別展示了基因數,mRNA分子總數、線粒體基因占比這三個常用的過濾指標。
首先可以通過基因數、mRNA分子數、線粒體基因占比三個參數進行質控去除質量差的細胞。
- nFeature_RNA 是每個細胞中檢測到的基因數量。
- nCount_RNA 是細胞內檢測到的mRNA分子總數。
- percent.mt 是細胞內線粒體基因表達量占所有基因表達量的比例。
如果nFeature_RNA 過低,表示該細胞可能已經死亡或將要死亡或者可能是空液滴。
如果nFeature_RNA 與 nCount_RNA 數值過高,表示細胞在形成油包水的結構制備過程中,兩個或者多個細胞被包裹在一個液滴中。
如果線粒體基因占比較高,則說明細胞的質量較差。這是因為線粒體基因會在受損或凋亡細胞表達升高,因而線粒體基因占比較高,表明細胞可能已經受損或者正處于凋亡過程中。
不過,每種細胞或組織類型如何設定線粒體閾值,要依實際情況而定。比如某些細胞的呼吸作用很旺盛,其線粒體基因的比例就會可能很高,而不是因為細胞破裂或者細胞狀態不好引起的。而有些細胞本來基因的表達數就很少,比如中性粒細胞。所以這三個參數的設置要根據細胞類型而設置。
04 降維和聚類
拿到過濾后的細胞后,我們就可以進行進一步的分析,了解樣本中有哪些類型的細胞,每個細胞分別屬于哪種細胞類型,甚至細胞亞型。
要做到這一點,我們首先要知道哪些細胞是屬于同一類的,這就需要進行降維和聚類。
所謂降維,就是把多維度的復雜數據用更少的維度展示出來,同時盡量保留原始數據中的主要信息。比如照片和地圖,就是對三維物體和真實世界的一種降維展示。
從三維的地球到二維的世界地圖,就是一種“降維”
而聚類的概念就比較簡單了,顧名思義,就是把相似的類別聚在一起。
單細胞測序分析的降維聚類圖,就是將各個細胞的基因表達情況在二維平面上展示出來,并且將基因表達特征近似的細胞聚在一起。
在降維聚類圖中,細胞間的距離是由它們表達譜的相似程度決定的。表達譜相似的細胞會聚在一起,被標記為同一種顏色,提示它們可能屬于同一種細胞類型,為后續判斷細胞類型提供分析基礎。
05 找到細胞簇的 Maker 基因
對于第四步中發現的每一個細胞簇(cluster,即降維聚類圖中聚在一起的一群細胞),我們可以通過分析找到在其中特異表達的cluster marker基因,用于后續的細胞類型注釋分析。
在通常情況下,我們會將某一個cluster與其他所有cluster相比的差異基因作為這個cluster的marker基因。當然,如果需要的話,也可以計算兩實驗組間或者兩cluster間的差異基因來作為marker。這些都可以用Seurat軟件包內的FindMarkers函數來實現。
06 細胞類型注釋
在得到細胞簇以及它們的marker基因后,我們就要對這些細胞簇的細胞類型進行判定,這一步就是細胞類型注釋。
細胞類型注釋是基于不同細胞類型中特異表達的marker基因來進行的。在第五步中,我們找到了每個細胞簇的marker基因,如果某個細胞簇的marker和某個細胞類型的marker基因相符,就可以被判定為對應的細胞類型。
這一步是單細胞分析中非常重要的環節,有一些細胞自動注釋軟件可以幫助我們定義細胞類型,比如singleR或者scCATCH。
當然受限于前期實驗設計或數據分析的差異,自動注釋的結果有時并不能與預期相符,我們還可以通過單細胞公共數據庫(比如CellMarker、PangLaoDB、CancerSCEM、SingleCellPortal等)或者已發表文章,來尋找自己感興趣的單細胞注釋參考數據集或已知的細胞類型marker,以提高注釋準確度。
比如,對于外周血單個核細胞(PBMC)數據集,我們可以用第五步中的方法計算出每個細胞簇的marker(下表中第二列),然后基于這些marker基因,就可以找到對應的細胞類型(下表中第三列),于是就能輕松地進行細胞類型注釋啦!
進行了注釋后,我們在降維聚類圖上看到的,就不再是以數字編號的細胞簇,而是有名有姓的具體細胞類型:
當我們獲得了完整的細胞類型注釋后,就可以開始進行下游的深入分析啦,比如不同細胞類型的差異基因、通路富集,也可以進行擬時序分析、細胞通訊分析等等,對樣本中各類細胞的功能、狀態和相互作用進行更加深入詳細的分析。
其他
繼續介紹一下轉錄本定量分析、實驗設計、批次效應和混雜因素。??
我們先思考幾個問題,如下:
Q1: 不同protocol有什么區別,優缺點是什么?
Q2: 在進行scRNA-seq的實驗設計時,要考慮哪些問題?
Q3: 與bulk RNA-seq的數據相比,scRNA-seq數據有什么不同?
1. 定量方法
目前我們常見的轉錄本定量方法有兩種,full-length和tag。full-length實現整個轉錄本的count,而tag的只capture5’或3’端。
1.1 full-length
scRNA-seq的full-length文庫構建與bulk RNA-seq相似,如SMART-seq2。從理論上講,full-length應該可以提供一個均勻的轉錄本coverage,但有時在coverage上還是有一定的偏差。full-length一大優勢就是可以檢測到不同剪接體(splice variants)。
1.2 tag
如果使用tag的方法進行scRNA-seq,則只對轉錄本的一端(3'或5')進行測序。目前大多數scRNA-seq都是基于tag的,如10x Chromium,
優點:可以與UMI(unique molecular identifiers)結合,提高定量的準確性。
缺點: 由于只限于轉錄本的一端,無法區分isoforms。
Note! 這個圖展示了不同細胞中average coverage的情況,有明顯的3' bias。
而且3個細胞群明顯離群,可能是RNA降解導致的。
1.3 為什么使用UMI
由于在PCR的過程中,擴增是指數級的,可能會導致擴增不均,從而高估基因的表達量。為了解決這個問題,cell barcodes會標記上一段隨機核苷酸序列(UMI),而這個UMI是唯一的。在讀取count時,將UMI納入,從而更準確的計算轉錄本的豐度。
1.4 選3’ 還是5’ tag
這個可能要根據大家具體的實驗目的來進行選擇,常用的就是3’的方法。但5'也有其優勢,如可以獲得有關轉錄起始位點(TSS)的信息,從而探索不同細胞之間是否存在不同的TSS。
2. 實驗設計
**那么多方法怎么選?
首先我們要明確的就是選擇不同方法還是要基于你的科學問題,你的研究目的。??
低通量的方法與高通量的方法相比具有更高的靈敏度,如10x Chromium。
另一方面,低通量方法很難capture到樣本中一些比較稀有的細胞類型,導致細胞群的特征不完整。??
scRNA-seq數據的不同之處
測序完成后,每個library代表一個細胞,而不是一群細胞。所以,每個細胞都是獨一無二的,在單細胞水平上沒有辦法進行 “生物學重復”。我們一般需要進行相似性聚類,然后在相似細胞群之間進行比較。
批次效應
批次效應(batch effects)是一定要考慮到的問題,即使用不同的技術對相同的樣本進行scRNA-seq,也會有批次效應,可以通過normalise來減少批次效應。
混雜因素
整個scRNA-seq的過程中,應避免實驗因素(如治療、表型或疾病等)、準備樣品時間、測序時間等對結果的影響。
舉個栗子
假設我們準備對10個病人的control和diseased組織進行scRNA-seq,如果每天只能處理10個樣本,最好是每天做5個control和5個diseased的樣本,而不是一天準備所有control的樣本,另一天準備所有diseased的樣本。
另一個需要考慮到的就是樣本的可重復性。
當從一個器官收集組織時,最好從器官的不同部位采集多個樣本。
由于基因表達可能受晝夜節律(circadian changes)的影響,我們最好也在同一個時間點進行取樣。
參考文獻
[1] Svensson V, Vento-Tormo R, Teichmann S A. Exponential scaling of single-cell RNA-seq in the past decade[J]. Nature Protocols, 2018, 13(4):599-604.
[2] Malte D L., Fabian J T.. Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology. 2019 Jun; 15(6): e8746.
[3] Macosko, E. Z. , Basu, A. , Satija, R. , Nemesh, J. , & Mccarroll, S. A. . Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell, 2015, 161(5), 1202-1214.
[4] Butler, A. , Hoffman, P. , Smibert, P. , Papalexi, E. , & Satija, R. . Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 2018, 36(5).
[5] Papalexi E, Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity. Nat Rev Immunol. 2018;18(1):35-45.
參考:
https://zhuanlan.zhihu.com/p/532134856
https://blog.csdn.net/m0_72224305/article/details/127148666