【文獻】單細胞轉錄組測序技術與生物信息流程綜述

【文獻】Single-cell RNA sequencing technologies and bioinformatics pipelines

地址: https://www.nature.com/articles/s12276-018-0071-8

帶著問題讀文獻:

1,這篇文獻講了個啥?
2,這篇文章為什么能發表在這個雜志上?
3,作者信息:大學信息或者研究所信息?
4,自己對文章的感興趣的地方?
5,這篇文章是什么領域或者方向?
6,這篇文章在生命科學中的位置?
7,這篇文章解決了什么問題?為什么這個問題這么重要?

請快速通讀文章:

Abstract

近年來,下一代測序(NGS)技術的快速發展為復雜的生物系統提供了許多有價值的見解,從癌癥基因組學到多種微生物群落。基于NGS的基因組學、轉錄組學和表觀基因組學技術現在越來越關注單個細胞的特性。這些單細胞分析將使研究人員發現新的和潛在的意想不到的生物學發現,相對于傳統的分析方法,評估群體。例如,單細胞RNA測序(scRNA-seq)可以揭示復雜而罕見的細胞群,揭示基因之間的調控關系,并跟蹤不同細胞系發育的軌跡。在這篇綜述中,我們將重點介紹單細胞分離和文庫制備方面的技術挑戰,以及用于分析scRNA-seq數據的計算分析流程。在分子和細胞生物學以及現有生物信息學工具方面的進一步技術改進將大大促進這些測序技術的基礎科學和醫學應用。

Introduction

將基因型映射到表現型是生物學和醫學中一個長期存在的挑戰,解決這個問題的一個強有力的策略是進行轉錄組分析。然而,盡管我們身體中的所有細胞都有幾乎相同的基因型,但任何一個細胞中的轉錄組信息都只反映了一個基因子集的活動。此外,由于我們身體中許多不同的細胞類型都表達一個獨特的轉錄組,傳統的群體測序只能提供一個細胞群的平均表達信號。越來越多的證據進一步表明,基因表達是異質性的,即使在相似的細胞類型;這種隨機表達反映了細胞的類型組成,也能觸發細胞的命運決定。然而,目前,大多數轉錄組分析實驗仍然基于一個假設,即來自給定組織的細胞是均勻的,因此,這些研究很可能忽略了重要的細胞間變異。為了更好地理解隨機生物學過程,更精確地理解單個細胞中的轉錄組對于闡明它們在細胞功能中的作用以及理解基因表達如何促進有益或有害狀態至關重要。

James Eberwine等人和Iscove及其同事率先在單個細胞水平上對整個轉錄組進行測序,他們分別使用體外轉錄的線性擴增和PCR的指數擴增來擴增單個細胞的cDNAs。這些技術最初應用于商業上可用的高密度DNA芯片,隨后應用于單細胞RNA測序(scRNA-seq)。基于下一代測序平臺的單細胞轉錄組分析的第一個描述發表于2009年,描述了細胞早期發育階段的特征。自這項研究以來,獲得全球范圍內單細胞異質性的高分辨率視圖的興趣激增。至關重要的是,評估單個細胞間基因表達的差異,有可能識別出無法通過分析匯集細胞檢測到的罕見群體。例如,在人群中發現和描述離群細胞的能力對于進一步理解癌癥治療中的耐藥性和復發具有潛在的意義。最近,現有實驗技術和生物信息學流程的重大進展也使研究人員能夠在健康和疾病狀態下消除高度多樣化的免疫細胞群。此外,scRNA-seq在早期發育、成肌細胞分化和淋巴細胞命運測定中越來越多地被用來描述細胞譜系關系。在這篇綜述中,我們將討論各種scRNA-seq技術和計算工具的相對優缺點,并強調scRNA-seq方法的潛在應用。

Single-cell isolation techniques

單細胞分離是從單個細胞獲得轉錄組信息的第一步。限制稀釋(圖1a)是一種常用的技術,其中用吸管稀釋分離單個細胞。一般情況下,當稀釋到每層0.5個細胞的濃度時,在孔板中只能得到約三分之一的制備孔板。由于細胞的這種統計分布,這種方法不是很有效。顯微操作(圖1b)是從早期胚胎或未培養的微生物中提取細胞的經典方法。和顯微鏡引導的毛細管吸管已被用于從懸浮液中提取單個細胞。但是,這些方法耗時長、通量低。最近,流式細胞分選(FACS,圖1c)已成為分離高度純化單細胞最常用的策略。當目標細胞表達非常低水平的標記時,FACS也是首選的方法。在這種方法中,首先用熒光單克隆抗體標記細胞,該抗體可以識別特定的表面標記并對不同的群體進行分類。另外,對于未染色的群體,也可能出現陰性選擇。在這種情況下,根據預先確定的熒光參數,使用靜電偏轉系統將電荷施加到感興趣的電池上,并對電池進行磁隔離。這些技術的潛在限制包括需要大的起始量(難以從少于10,000的低輸入數中分離細胞)和需要針對感興趣的蛋白的單克隆抗體。激光捕獲顯微解剖(圖1d)利用計算機系統輔助的激光系統從固體樣品中分離細胞。

微流控技術(圖1e)由于其樣品消耗低、分析成本低以及能夠實現精確的流體控制,使得用于單細胞分離的微流控技術(圖1e)得到了廣泛的應用。重要的是,這種技術所需的納米級體積大大降低了外部污染的風險。微流體最初被用于少量的生化分析,用于DNA和蛋白質的分析。然而,現在已經開發了復雜的陣列,允許單獨控制閥門和開關,從而提高了它們的可伸縮性。值得注意的是,近年來微流體技術的迅速發展改變了基礎科學家和臨床醫生的研究能力。該技術的應用包括在微流控生物反應器中對單個細菌細胞的長期分析,以及以高度并行的方式對單個細胞基因表達譜進行定量分析。

一個廣泛使用的商業平臺,Fluidigm C1,可以在一個芯片上為多達800個細胞提供自動單細胞裂解、RNA提取和cDNA合成。與基于管道的技術相比,該平臺提供了更低的誤報和更少的偏差。然而,它的主要缺點包括捕獲所需的細胞數量(>1000)和被分析細胞的均勻大小限制。另一種很有前途的單細胞分離技術是基于微滴的微流體技術,它允許水滴在連續油相中進行單分散。與標準微流體室相比,該系統所需的體積更小,能夠以更低的成本操作和篩選成千上萬的細胞。10X Genomics公司的商用Chromium系統提供了3' 末端的高通量分析,具有很高的捕獲效率。因此,這種高通量處理方法能夠在充分多樣化的生物空間中分析罕見的細胞類型。然而,臨床樣本必須謹慎處理,以建立一個適當的環境,不干擾現有的細胞特征。

例如,為了分離罕見的循環腫瘤細胞(CTCs), CellSearch(第一個臨床驗證的、食品和藥物管理局批準的測試)開發了一個系統來枚舉患者血液樣本中的CTCs(圖1f)。該系統使用與抗體偶聯的磁鐵來檢測上皮來源的CTCs (CD45和EpCAM)。

image.jpeg

a)極限稀釋法分離單個細胞,利用稀釋細胞的統計分布。b)微操作包括使用顯微鏡引導的毛細管吸管收集單個細胞。c) FACS通過熒光標記蛋白標記細胞分離高度純化的單細胞。d)激光捕獲顯微解剖(LCM)利用計算機系統輔助的激光系統從固體樣品中分離細胞。e)用于單細胞分離的微流體技術需要納米級的體積。一個內部基于微滴的微流體的例子(例如,Drop-Seq)。f)細胞搜索系統使用與CTC結合抗體偶聯的磁鐵從患者血液樣本中枚舉CTCs。g)基于drop的庫生成的示意圖示例。scna -seq的文庫通常是通過細胞裂解、逆轉錄成第一鏈cDNA(使用獨特的條形碼珠子)、第二鏈合成和cDNA擴增生成的

Comparative analysis for scRNA-seq library preparation

構建scRNA-seq文庫的常見步驟包括細胞裂解、逆轉錄成第一鏈cDNA、第二鏈合成和cDNA擴增。一般情況下,細胞在低滲透壓的buffer中裂解,poly(A)+選擇使用poly(dT)引物捕獲mRNA(圖1g)。已經確定,由于采樣符合泊松分布,只有10%-20%的轉錄本將在這個階段逆轉錄。這種低mRNA捕獲效率是現存scRNA-seq protocols中仍然存在的一個重要挑戰,需要一種高效的細胞裂解策略。

對于cDNA的制備,一種具有低RNase H活性和高熱穩定性的工程版莫羅尼小鼠白血病病毒逆轉錄酶通常用于第一鏈合成。第二鏈可以使用poly(A)尾礦或template-switching(36,37)生成。與前者相比,后一種方法確保了統一的覆蓋范圍,而不會丟失strand-specific。然后用常規PCR或體外轉錄進一步擴增少量合成的cDNAs。體外轉錄方法可以線性擴增模板,但耗時較長,因為它需要額外的逆轉錄,這可能導致3'覆蓋偏差。Smart-seq2 (Smart-seq的改進版本)生成全長的轉錄本,因此適合于使用單核苷酸多態性發現選擇性剪接事件和等位基因特異性表達。目前,Illumina平臺被廣泛應用于測序步驟(如HiSeq4000和NextSeq500)。特別是,MiSeq測序儀提供了快速的周轉時間,一天可以產生約3000萬PE reads。

深入的轉錄組分析需要對大量細胞進行分析。為了應對相關的測序成本,以前的方法只關注轉錄的5'或3'末端。最近,研究人員在逆轉錄步驟中加入了獨特的分子標識符(UMIs)或條形碼(隨機的48bp序列)。考慮到單個細胞中存在10^5 -10^6個mRNA分子,> 10000個表達基因,至少需要4-bp UMIs(區分4^4 = 256個分子)。利用該策略,可以有效去除PCR bise,提高檢測的準確性,從而將每個讀序列分配到原始細胞。這些條形碼方法利用分子計數,并顯示出比使用基于序列讀取的術語(如RPKM/FPKM(每千堿基每百萬映射讀取讀取/片段))間接量化分子更好的重現性。然而,目前基于UMI標記的方法序列要么位于轉錄本的5' 端,要么位于轉錄本的3' 端,因此不適合用于等位基因特異性表達或異構體的使用。表1給出了典型的scRNA-seq建庫方法的比較。

image.png

Computational challenges in scRNA-seq

盡管許多實驗室越來越容易使用scRNA-seq的實驗方法,但處理原始數據文件的計算流程仍然有限。一些商業公司提供軟件工具,如10×Genomics和Fluidigm,但這一領域仍處于起步階段,金標準的工具尚未開發。在下面的幾節中,我們將討論當前用于分析scRNA-seq數據的生物信息學工具。

Pre-processing the data

一旦從scRNA-seq實驗中獲得read數據,就進行質量控制(QC)。在現有的QC工具中,FastQC是一種流行的工具,用于檢查整個讀取過程中的質量分布。低質量的堿基(通常在3'端)和接頭序列(adapter)可以在這個預處理步驟中刪除。比對(Read alignment)是scRNA-seq分析的下一步,此過程中可用的工具,包括Burrows-Wheeler Aligner (BWA)和STAR,與在bulk RNA-seq分析流程中使用的工具相同。在實現UMIs時,應該先將umi 截掉。RNA-seQC程序提供比對后的摘要統計信息,例如唯一比對的read、比對到注釋的外顯子區域以及與特定文庫的覆蓋覆蓋度等。當添加已知數量和序列的轉錄本(外部spikein)進行校準和QC時,內源性RNA與spikein的低比對比將表明,RNA降解或細胞裂解效率低下導致的文庫質量較低。圖2描述了單細胞分析流程的示意圖。

圖:


image.jpeg

scRNA-seq數據具有固有的噪聲和混雜因素,如技術和生物變量。測序后,進行比對和去重,以量化一個初始基因表達譜矩陣。接下來,使用各種統計方法對原始表達式數據進行歸一化。當使用spikein時,通過檢查比對率來丟棄低質量的細胞,可以進一步QC。最后,通過單元格聚類對歸一化矩陣進行主分析,識別子類型。根據這些數據可以推斷出細胞的運動軌跡

比對后,使用一般轉錄本格式的轉錄注釋將讀序列分配給外顯子、內含子或基因間特征。只有讀到高作圖質量的外顯子位點的圖譜,才能考慮生成基因表達矩陣(N(細胞) x m(基因)。scRNA-seq數據的一個顯著特征是由于信號丟失或短暫的基因表達等原因導致的計數為零。為了解釋這個特性,必須執行標準化;為了消除可能影響下游應用的細胞特異性偏差(例如,差異基因表達的測定),標準化是必要的。

每個細胞中一個基因的read數預計與基因特異性表達水平和細胞特異性標度因子(隨機)成正比。這些討厭的變量,包括捕獲和逆轉錄效率以及細胞內在因素,通常很難估計,因此通常被modeled(認為是)為固定因素。雖然討厭的變量可以與表達量一起估算均一化,但只適合于特定的統計模型,而且該過程需要計算。在實踐中,假設大多數基因沒有差異表達,原始表達計數通過標準化細胞間的比例因子估計來標準化。最常用的方法包括RPKM、FPKM和每千堿基百萬(TPM)的轉錄本(圖3a, b)。例如,RPKM計算為(外顯子讀10^9)/(exon length * total mapped read)。RPKM和FPKM之間的唯一區別是,FPKM考慮的是如果是PE read比對,那么read count的計算是指一個比對mates。TPM是RPKM的一個修改,其中每個樣本中所有TPMs的總和在樣本之間是一致的( exonic read×mean read length×106/exon length×total transcript)。這種方法比基于PKM/ fpkm的估計更容易比較每個基因的mapped reads,因為在TPM中,每個樣本的歸一化read 之和是相同的(圖3c)【 This approach makes comparisons of mapped reads for each gene easier than PKM/FPKM-based estimates because the sum of normalized reads in each sample is the same in TPM】。然而,當檢測差異表達基因時,這些基于文庫大小的標準化方法可能還不夠好。考慮到這種情況,當兩個基因在兩個條件(A和B)中表達。在條件A下,這兩個基因表達相同,而在條件B中, B基因表達雙倍高于基因A .如果我們把這個絕對表達式轉換成相對表達式,有人就可以得出這樣的結論:基因A差異表達了,雖然這種影響只是其與基因B的比較(圖3 d)。正如以前所觀察到的,如果一組特定的mRNA在一種情況下高表達,而在另一種情況下沒有高表達,那么可能會錯誤地認為無差異基因識別為始終如一地下調。

圖3:

image.jpeg

a)每千堿基讀(RPK)的定義是將一個isoform (i)的讀計數乘以1000,再除以isoform長度。每千堿基每百萬讀數(RPKM)的定義是為了比較實驗或不同的樣本(細胞),以便將總片段數的額外標準化集成到分母項中,分母項以百萬為單位表示。

b)TPM考慮了其他亞型,與RPKM形成對比。這一指標量化了豐富的異構體(i)使用RPK分數跨異構體。

c)一個示意圖示例說明了RPKM和TPM措施之間的區別。TPM對于測量相對豐度是有效的,因為在不同的單元中,總的歸一化讀取是恒定的。

d)然而,我們應該小心地解釋這樣一個事實:由于其他亞型的過度表達,差異表達的基因可能被錯誤地標注

為了克服樣本內歸一化方法中固有的問題,提出了多種方法。樣本間歸一化最常用的兩種方法是TMM(The trimmed mean of M-value)方法和DESeq方法。這些框架背后的基本思想是,高度可變的基因控制著read count,從而扭曲了表達譜中的相對豐度( thus skewing the relative abundance in expression profiles)。首先,TMM選取參考樣本,其他樣本作為測試樣本。每個基因的m值計算為測試與參考樣本之間的基因對數表達比。然后,剔除m值極值的基因后,對每個測試樣本設置這些m值的加權平均值。與TMM相似,DESeq將比例因子計算為特定樣本中每個基因s的讀計數與所有樣本的幾何平均值之比的中位數。然而,當存在大量的零計數時,這兩種方法(TMM和DESeq)的性能都很差。為了避免隨機零計數,提出了一種基于匯聚表達值55的歸一化方法,該方法對數據中差異表達基因具有較強的魯棒性。高變異基因的選擇對歸一化方法很敏感,因此影響了數據異質性的分析,因為大多數研究在聚類分析之前使用高變異基因來降低維度。將樣本內和樣本間歸一化方法結合起來的潛力很大程度上尚未探索,而且仍然是一個需要嚴格測試的活躍研究領域。

歸一化后,下一步是估計混雜因素。我們知道觀察到的讀計數受多種因素的影響,包括生物變量和技術噪聲(圖4)。關鍵是,scRNA-seq中使用的少量起始材料可能會放大技術噪聲的影響。使用spikein可以有效地抑制這種放大,例如Ambion的ERCC spikein組合,但是一些droplet-based 的應用不能很容易地納入這個系統。與傳統的RNA-seq不同,傳統的bulk RNA-seq是在多種條件下比較差異表達的基因,而在scRNA-seq實驗中,來自一種條件的細胞通常被捕獲并測序(圖4a)。因此,批次效應,即與任何生物變異無關的、由樣品制備條件引起的系統差異,往往是顯著的。對一個條件下的多個細胞進行重復分析將有助于評估由于批次效應而產生的技術可變性;然而,這種方法需要額外的成本和勞動力。此外,除了技術噪音,生物變量(如狀態、周期、大小和凋亡)也可能影響基因表達譜。最近,為了解決這個問題,開發了scLVM方法,并被證明對消除由潛在變量解釋的變化是有用的。這種方法被應用于T細胞分化,以發現未知的亞群,并使識別對TH2細胞分化至關重要的相關基因成為可能,否則,當存在細胞周期協變量時,這是不可能的(圖4b)。對已知和未知變量的管理也可以使用包含隨機噪聲的線性組合的復雜統計模型(圖4c)來處理。

圖:


image.jpeg

a) 在scRNA-seq中,當實驗(條件)在不同的板(環境)中進行時,技術間歇效應是一個眾所周知的問題。在歸一化步驟中,必須考慮細胞特異性的標度因子,如捕獲和RT效率、dropout/擴增偏差、稀釋因子和測序量。

b) 單細胞潛在變量模型(scLVM)能有效去除細胞周期效應解釋的變異。在使用PCA(參考文獻58的可視化)校正的scvm表達數據中,這種清晰的分離丟失了。

c) 表達式值y可以用噪聲矩陣表示為r個技術和生物因素與k個潛在因素的線性組合

Cell type identification

對人體中眾多細胞的鑒定是一項艱巨的任務。正如Kacser和Waddington在他對細胞可塑性的比喻中指出的那樣,細胞具有巨大的潛在狀態,它們可以在發育過程和疾病進展中采用這些狀態。然而,對于任何特定的細胞類型,幾乎沒有可靠的標記存在,即使有成熟的標記(如免疫細胞中的分化簇(CD)標記),隱藏的多樣性仍然存在。在scRNA-seq實驗中,為了避免維數的詛咒,通常在讀取計數歸一化后進行降維。主成分分析(PCA)是一種廣泛應用的無監督線性降維方法。通過將細胞投影到二維空間中,我們可以很容易地可視化樣本,提高了解釋能力(圖5)。此外,還可以利用其他非線性降維方法,如t-distributed random neighbor embedded (t-SNE)60、多維尺度、局部線性嵌入(local linear embedded, LLE)和Isomap。t-SNE在流行的Cell Ranger pipeline(10 Genomics)和Seurat的R包中實現。盡管LLE和Isomap對微陣列data顯示出優越的性能,但是這些方法應該在scRNA-seq數據集上進一步的評估。我們進一步警告說,降維可能導致重要的生物學信息的丟失。

image.jpeg

細胞生活在與周圍環境相互作用的動態context中。PCA可用于識別已知和未知的細胞簇。正常基因表達譜二維投影后可進行細胞層次重建。解碼調控網絡融合了偽時間推斷軌跡和二維空間聚類基因表達信息

聚類是另一種檢測低質量細胞的有效方法,方法是通過特異性地識別富含線粒體(mt)基因的聚類。該方法基于一項研究,該研究表明,當細胞膜破裂時,mtDNA基因上調,細胞質RNA丟失。一旦劃分完成,下一步就是識別不同簇間差異表達的標記基因。計數數據最簡單的統計模型是泊松模型,它只使用一個參數(方差=平均值)。然而,對于單細胞數據中的各種噪聲源,使用負二項模型(方差=均值+離散度X均值的平方;對于大多數基因,離散度是>0)。另一種選擇是,誤差模型可以用來解釋技術噪音(例如,dropout)。單細胞差異表達分析平臺使用了兩個概率過程的混合物:一個用于適當放大并與其豐度相關的轉錄本,另一個用于未放大或檢測到的轉錄本。值得注意的是,盡管混合模型比單峰模型具有優勢,但是異構細胞分布常常產生雙峰分布。

Inferring regulatory networks

推斷監管網絡

基因調控網絡(GRNs)的闡明可以增強我們對活細胞復雜細胞過程的理解,這些網絡通常揭示基因和蛋白質之間的調控相互作用(圖5)。值得注意的是,GRN的測定并不是生物學研究的最終結果,而是連接基因型和表型的中間橋梁。以前,基于微陣列的批量RNA-seq被用來揭示這些網絡,盡管最近scna -seq被用于這一目的。單細胞基因組學使推斷GRNs變得更容易,因為典型的實驗允許在一種條件下捕獲數千個細胞,這增加了統計能力。然而,由于細胞內的異質性和大量的基因相互作用,GRN的測定仍然具有挑戰性。

已經開發了許多計算算法來處理大量的基因表達數據產生的批量群體分析和揭示GRNs。這些方法可以分為基于機器學習的,基于共同表達的、基于模型的,和基于信息理論的方法。基于共表達的方法可能是識別假定關系的最簡單方法,但這些方法無法對細胞系統的精確動力學建模。基于模型的推理,如貝葉斯網絡,使用了許多參數,且耗時。此外,概率圖形模型需要為許多基因尋找所有可能的路徑,這是一個np難題。近年來,利用互信息和條件互信息的基于信息論的方法得到了廣泛的應用,因為它們沒有假設,可以測量基因之間的非線性關聯。

從單細胞的角度來看,必須將單細胞的隨機特征適當地集成到GRN模型中。如上所述,技術噪音很難與真正的生物變異性區別開來,而剩余的變異性仍然知之甚少。然而,單細胞數據的異步性以及多個細胞子類型的存在,可能提供了檢測假定的調控關系所需的固有統計可變性。近年來,從單細胞數據中識別GRNs的方法得到了廣泛的應用,并成功地應用于T細胞生物學中,為共表達分析數據提供了新的思路。

值得強調的是,檢測調控關系應該在合理的時間尺度內是可能的,因為轉錄變化不會永遠持續。此外,為了推斷因果關系,必須通過微擾研究或時間數據來驗證和細化已識別網絡中基因之間的方向性。

Cell hierarchy reconstruction

細胞層次結構的重構

個體細胞不斷經歷動態過程,并對各種環境刺激作出反應。其中一些反應是快速的,而另一些反應可能要慢得多,并且可以在多年的過程中發生(例如,發病機制)。這一動態過程特別反映在細胞的分子結構中,包括RNA和蛋白質的含量。要研究體細胞中的基因組尺度動態過程,細胞必須使用復雜的技術來同步。然而,在單細胞系統中,細胞是不同步的,這使得捕獲沿著整個軌跡的不同瞬時時間點成為可能。然后,我們可以應用算法來重建與細胞分化或細胞周期進展相關的動態細胞軌跡(表2)。

image.png

scRNA單細胞RNA測序,水肺單細胞分岔聚類,t-SNE t分布隨機鄰接嵌入,ICA獨立分量分析,MST最小生成樹,PCA主成分分析,k-NNG k近鄰圖

在Monocle16算法中引入了偽時間的概念,該算法測量細胞的生物進程(圖5)。在這里,偽時間的概念與實時不同,因為細胞是一次性采樣的。最大吝嗇是推斷細胞動力學的基本原理,在進化生物學中已廣泛應用于系統發育樹的重建。Monocle最初構建的圖形中,節點表示單元格,而邊緣對應于每對單元格。利用獨立分量分析(ICA),根據降維后矩陣中單元間的距離計算邊緣權值。然后應用最小生成樹(MST)算法搜索最長的主鏈。這些方法的主要限制是構造的樹非常復雜,因此用戶必須指定k個分支才能搜索。最近提出了一個更高級的版本Monocle2;這個版本比Monocle更快、更健壯,并結合了使用反向圖嵌入技術的非監督數據驅動方法。對于時間信息可用的情況,基于監督學習的方法可以更加準確。例如,使用分支分析的單細胞聚類(SCUBA)89實現了分支分析,并已被用于從多個時間點測量的基因表達譜中恢復小鼠胚胎早期發育階段的譜系。

scna -seq還被成功地應用于在體神經遺傳學中重建譜系。這種技術的一種適應性,Div-Seq,通過直接測序分離的細胞核,繞過了組織分離的需要。眾所周知,酶解會破壞RNA的組成,破壞完整性,因此,如果沒有這種修飾,研究復雜組織(如大腦)中的細胞是不可能的。軌跡推斷的初始方法是基于線性路徑的;然而,最近的工作已經整合了分支92的概念,這對于理解動態細胞系統可能是至關重要的。Lander和他的同事們最近提出了一個更加靈活的概率框架,并利用這種方法在成纖維細胞向誘導多能干細胞重新編程的過程中重建已知和未知的細胞命運圖。我們希望,從細胞譜系確定或涉及到在分支點擾動調控器的實驗中收集到的額外生物學見解,將對增強我們對復雜細胞系統的理解有價值。盡管本文的主要關注點是基于rna -seq的方法,但我們也注意到,細胞層次結構也可以通過proteomic94、95或表觀基因組測量重建。

Potential applications and future prospects

潛在的應用前景

scna -seq正在徹底改變我們對生物學的基本理解,這項技術開辟了超越細胞狀態描述研究的新研究領域。人們可以想象許多令人興奮的醫學應用可以利用這項技術。腫瘤異質性是一種常見的現象,可以發生在腫瘤內部和之間,我們希望scRNA-seq可以用于闡明未知的腫瘤特征,不能從傳統的批量轉錄組研究中識別。例如,該技術可用于評估癌癥細胞藥物耐受發展過程中的轉錄異質性,并分析特定通路的表達譜(圖6a)。通過這種方式,scna -seq可能有助于生成癌癥進化的模型。此外,該技術還可以通過建立轉錄動力學模型來重建細胞間的克隆和系統發育關系。

圖6


image.jpeg

瘤內異質性對癌癥基因組學提出了挑戰。scna -seq可以通過在各種上下文中根據響應性有效地標識子組來解決這個問題。b液活檢提供了令人興奮的機會,CTCs的scna -seq可以為生物標志物的表征提供新的見解。c scna -seq能從早期發育階段推斷譜系信息,并能識別新的差異標記

最近,血液中CTCs的分析預示了液體活檢的黃金時代,強調了利用這種DNA作為臨床診斷標記的潛力(圖6b)。scna -seq可能被用于發現CTCs的編碼突變和融合基因。我們進一步預測,RNA可以作為常規臨床評估的一部分,在同一細胞中對基因組和轉錄組信息的并行測量可以闡明DNA和RNA變異的表型后果。

譜系追蹤是生物學中一個長期存在的基本問題,旨在了解單細胞胚胎如何產生各種細胞類型,這些細胞類型被組織成復雜的組織和器官(圖6c)。作為概念驗證,加州理工學院的研究人員最近開發了一種方法,利用單個細胞中mRNA水平的序列讀出來重建多個世代的譜系系統發育。scna -seq的另一個有趣的潛在應用包括鑒定參與干細胞調控網絡的基因。我們現在才剛剛開始了解干細胞是如何被觸發成為功能細胞的,這是了解人類健康和疾病的基本生物學過程所必需的信息。

隨著測序成本的降低,在未來5年內,將有可能對100多個細胞進行常規分析。人類細胞Atlas101的目標是繪制出人體35萬億細胞的圖譜,它已經開始了一些試點研究。最初的計劃是對3000萬到1億個細胞中的所有RNA轉錄本進行測序,然后使用基因表達譜對新的細胞類型進行分類和識別。例如,預計高度多樣化的免疫系統細胞的scRNA-seq將加深我們對其固有異質性的理解,特別是在淋巴細胞行為方面。布羅德研究所(Broad Institute)的一項研究進一步強調了scRNA-seq的效用,該研究揭示了18個看似相同的免疫細胞的子集,這些細胞之間的基因表達模式存在明顯差異。一些新興的scna -seq研究集中于加深我們對大腦細胞102,103的理解。從這些分析中收集的信息很可能被用來識別與神經相關疾病相關的新途徑,為生物標志物的發現提供新的治療靶點。我們展望scna -seq在生物學和生物醫學研究中的未來應用,也將為各種組織和器官的生理結構功能關系提供新的見解。最終,隨著標準化生物信息學流程的可用性的改善,這項工作將揭示對生物系統的新見解,并為治療開發創造新的機會。

個人比較感興趣的部分是分析的方法

總結一下分析方法

1,數據的預處理,fastqc看數據質量,過濾,使用bwa,STAR比對,
2,得到表達矩陣(expression matrix),使用RPKM或TPM
3,標準化(TMM,或DESeq)
4,細胞類型鑒定(聚類,PCA,t-SNE等)
5,推斷監管網絡(有基于機器學習的,基于共同表達的、基于模型的,和基于信息理論的方法)
6,細胞層次結構重構(Monocle2)

拓展:

2012年,有一款名為Fluidigm C1的單細胞建庫儀器風靡業界,它首次將微流控技術和單細胞建庫技術結合,實現了在納升體系內完成單細胞建庫,并且同時能完成96個單細胞建庫。方案降低了單個細胞的建庫成本,但儀器價格十分昂貴。現在來看,這款儀器壽命并不長,正在被新技術替代。

2015年出現了一個革命性的技術——基于液滴微流控的單細胞建庫技術,實現了將細胞包裹在一個個很小的油包水的液滴(droplet)里面,液滴體積只有納升級別,由于短時間內可以生產百萬數量的液滴,使得單細胞建庫的通量提高到了1000以上。該技術的出現使得單細胞大數據研究成為可能。與此同時,現在已經涌現了一批同等通量的單細胞技術,包括基于微孔芯片(microwell)以及組合分子標簽(combinatorial indexing)的單細胞測序技術。

image.gif
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容