- PMID: 33288955 https://www.nature.com/articles/s41596-020-00409-w#Sec1
- DOI: 10.1038/s41596-020-00409-w
單細胞RNA測序(scRNA-seq)是一種流行且功能強大的技術,它允許您分析大量單個細胞的整個轉錄組。然而,分析這些實驗產生的大量數據需要專門的統計和計算方法。這里我們概述了處理scRNA序列數據所涉及的計算工作流程。我們將討論一些最常見的任務和解決中心生物學問題的工具。在本文和我們的指南網站(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html),我們提供有關執行計算分析的最佳實踐的指南。本教程為有興趣分析數據的實驗者提供了實踐指南,也為尋求開發新計算方法的生物信息學家提供了概述。
請直接閱讀原文并實踐~~
這是一條分割線
介紹
scRNA-seq已成為一種轉化技術,用于表征復雜組織,并回答無法通過批量RNA測序解決的問題。自2009年第一個scRNA-seq協議發布以來,許多協議和商業平臺已經發布。如今,scRNA-seq實驗有兩種主要模式。最常見的方法是使用顯微鏡下的復制品或孔來分離大量細胞,然后對文庫進行相對較淺的排序4,5。為了確定給定轉錄本來自哪個細胞,這些方法使用了細胞弧(附在每個讀數上的短核苷酸標簽是液滴或井所特有的)。這種高通量、低深度的模式是使用流行的10×Chromium平臺進行實驗的典型模式。這項技術的一個重要優點是它支持獨特的分子標識符(UMI)。UMI是在擴增前附加在轉錄本上的短條形碼,使得消除聚合酶鏈反應重復并獲得更準確的表達水平估計成為可能。一個主要缺點是該平臺僅允許對每個信使RNA(mRNA)的5′或3′端進行測序。許多研究采取了相反的方法,即分離相對較少的細胞,但更深入地排列它們。這些低通量、高深度的實驗通常將細胞分離到單個孔中,并應用Smart-seq2協議。除了最近引入的Smart-seq3協議外,這些方法不支持UMIs,但它們通常顯示出比基于液滴的技術更高的靈敏度,并且它們還允許對整個轉錄本進行分析。有關不同平臺的深入概述,請參閱最近的綜述和相關標準。
除了促進實驗工作流程外,最近的創新還大大降低了scRNA-seq的每細胞成本。因此,就所分析的細胞數量而言,出現了指數增長。鑒于生成的數據量巨大,單細胞數據分析需要高效的計算和統計方法。隨著實驗協議的迅速改進,處理數據的計算工作流也得到了改進。本教程的目的是為scRNA序列數據提供最常見分析類型的概述。本文旨在作為我們為教授scRNA-seq數據的計算分析而開發的課程材料的配套(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html)。該網站于2016年首次推出,并不斷更新,包括新方法,并提供最新的最佳實踐建議。
scRNA序列分析的一個核心組成部分是表達矩陣,它代表每個基因和細胞的轉錄數量。工作流程可分為兩個主要部分:1)表達式矩陣的生成,2)表達式矩陣的分析(圖1和表1)。盡管我們的在線教程涵蓋了這兩個方面,但這里我們重點介紹了獲得表達式矩陣后執行的分析類型。大多數基因只在一組細胞類型中使用,但是,由于在scRNA-seq實驗中普遍使用的起始材料量低和測序深度低,一些基因即使表達也無法檢測到。結果是基因表達矩陣中存在大量的零值,這是一個問題,因為一些零值可以代表細胞中實際的低或零表達以及測量過程中的變化。難以區分這些觀察到的零值并對其進行適當建模是計算分析的主要挑戰之一。即使是深度測序的數據集也可能有約50%的零,而測序深度較低的數據集可能有99%的零。相比之下,在非典型批量RNA測序數據集中,<20%的數據條目為零。
圖1 | 工作流程概述。在典型場景中,研究人員必須首先組合多個實驗中的表達矩陣,以獲得一個組合表達矩陣,該矩陣根據測序深度、細胞周期階段和其他混雜因素進行校正。接下來,數據被可視化,并通過聚類、偽時間和差異表達分析來識別具有生物學意義的模式。最后,將結果與文獻和現有數據集進行比較。
質量控制
分析scRNA序列的第一步是排除不太可能代表完整單個細胞的細胞條形碼。對于高通量方法,關鍵步驟是過濾掉不代表單個細胞的barcode。
最直接的方法是計算需要考慮條形碼作為ACEL11的UMI的數據集特定閾值。或者,一些最近開發的工具,如MPT-HYDROPS12,首先估計存在于空孔或液滴中的RNA的背景水平,然后識別明顯偏離背景的細胞條形碼,這表明存在細胞。這種策略的優點是,相對于樣本中的其他細胞,它能夠檢測RNA含量較低的細胞類型。
不幸的是,這些方法都不能區分完整的活細胞和受損或垂死的細胞。必須執行第二輪質量控制,考慮檢測到的基因數量、來自線粒體基因組的 RNA 比例以及每個細胞不可映射或多映射讀數的比例。具有高比例的線粒體衍生基因、很少檢測到的基因或高比例的未映射或多映射讀數的細胞通常是受損或死亡的細胞13。 具體閾值通常是通過手動檢查質量控制指標圖來確定的,因為最佳截止值取決于組織、解離協議和其他技術因素。為關鍵指標定義離群細胞(根據中值絕對偏差)允許直接構建數據集特定閾值,但應謹慎應用,尤其是對于包含高度異質細胞類型的樣本14。