測序原理

2021.3.9
持續(xù)更新中。。。
主要參考:生信曲線、基因?qū)W苑


1. 第一代測序(Sanger測序)

關(guān)鍵詞:雙脫氧測序、末端終止測序

1.1 正常DNA的合成過程

在模板鏈和引物存在的條件下,核糖體RNA分別將四種脫氧核糖酸(dNTP)運輸至引物末端。然后按照堿基互補配對原則脫水形成5'-3'磷酸二酯鍵

DNA正常合成過程

1.2 Sanger測序原理

使用鏈終止法,即向反應(yīng)體系中同時加入脫氧核糖酸(dNTP)和雙脫氧核糖(ddNTP)。兩者均可隨機整合到模板鏈上形成DNA,但是ddNTP由于缺少羥基(-OH),在整合到模板鏈條上,反應(yīng)隨機終止。利用ddNTP的這一特點,結(jié)合檢測電泳條帶或者利用光源信號傳導即可獲得序列。

ddNTP結(jié)合引物后不可繼續(xù)反應(yīng)

ddNTP隨機結(jié)合產(chǎn)生不同長度的條帶

每個體系分別電泳讀取信號

利用光信號轉(zhuǎn)換讀取

1.3 Sanger測序優(yōu)缺點

優(yōu)點:

  • 方法簡單,準確率高,測序片段較長,一次可達1kb。

缺點:

  • 成本高,通量低

2. 第二代測序(Illumina測序為例)

關(guān)鍵詞:橋式PCR,可逆末端終止,高通量,邊合成邊測序

Illumina公司的Solexa和Hiseq兩個系列的機器是目前全球使用量最大的第二代測序機器,為了獲得完整的基因組,通常包括三個階段:測序、短序列比對和序列拼接。

三大階段

IIIumina測序數(shù)據(jù)的特點:讀長短、具有一定的錯誤率、深度高、reads之間具有pairend關(guān)系

2.1 測序

根據(jù)測序的流程大致分為三步,測序完成得到原始數(shù)據(jù)在進入短序列拼接之前還會進行質(zhì)量評估和控制等中間過程。


測序三大步

制備DNA基因組樣本時,選擇單倍體、樣品的總量和DNA濃度OD需要達到要求,注意不要降解

2.1.1 第一步:構(gòu)建基因文庫

步驟一:利用超聲波將待測的DNA樣品打斷成小片段,通常為500bp左右。
步驟二:修復小片段為平末端,進一步在平末端添加A堿基,形成黏性末端。
步驟三:在粘性末端添加adapter接頭、測序引物、index標簽等。

構(gòu)建文庫過程

最終文庫形式

文庫:就是DNA片段的一個集合,將測序片段打斷之后就構(gòu)成了一個文庫,通常片段小于1kb的文庫稱為小片段文庫(pairend),大于1kb的文庫稱為大片段文庫(matepair)。文庫的大小又被成為insert size,可用于后續(xù)的拼接。

2.1.2 第二步:橋式PCR

步驟一:液體流過流動池(Flowcell)之后,單條DNA序列會被固定到流動池上。
步驟二:進行多次橋式PCR擴增。
步驟三:多余的DNA序列會被液體沖走,在流動池上留下一簇一簇相同的DNA單鏈。

Flowcell

橋式PCR大致流程

橋式PCR的目的是為了增大信號源,便于檢測,其詳細的原理可以參考:
Seurat_

2.1.3 第三步:測序

步驟一:向反應(yīng)體系中加入DNA聚合酶、接頭引物和帶有堿基特異熒光標記的4種dNTP。
步驟二:合成第一個堿基后,不能正常進行后續(xù)反應(yīng).
步驟三:清除剩余未使用的堿基和試劑。
步驟四:激發(fā)堿基熒光并收集信號。
步驟五:去除第一堿基的阻斷基團和熒光基團。
步驟六:循環(huán)進行步驟一至步驟五。

每條序列需要進行兩次測序,正向引物完成測序之后,會被液體沖走,然后利用反向引物進行另一端的測序。

邊合成邊測序

雙末端測序

讀取信號類似于相同照片的疊加

2.1.4 測序飽和度評估

  • 目的:推測測序所需要的最小數(shù)據(jù)量,理論上10倍數(shù)據(jù)量已經(jīng)足夠,但是實際上還存在其他誤差,因此會高于這個數(shù)值。
    理論最小值

2.1.5 數(shù)據(jù)質(zhì)控

1. 兩個指標

  • 堿基含量分布:測序后的GC含量要和基因組GC含量相同。
  • 堿基質(zhì)量分布:Q20堿基百分比(一般要求在90%以上),Q30堿基百分比(一般要求在85%以上)

Q20指這個位點的堿基的錯誤率為百分之一,Q30為千分之一。

2. 用fastqc可以生成質(zhì)量控制報告

質(zhì)量報告對比

2.1.6 測數(shù)數(shù)據(jù)處理——過濾

  • 非基因組序列。包括adapter接頭、測序引物、index標簽等。
  • N堿基過多的reads。通常N堿基的占比超過read的10%以上會被去除。
  • 低質(zhì)量reads。以Q20為標準,低于一定的Q20比率會被去除。
  • 去除duplication。兩對完全一致的reads會去除一對。

注:

  1. pairend的reads只要有一條reads不滿足條件,兩條reads都需要去除。
  2. 在RNA-seq和16s測序過程中不能去除duplication,否則會丟失一些豐度信息。

2.2 測序拓展內(nèi)容

2.2.1 大片段文庫

實際上無論是大片段文庫或者小片段文庫,都無法完全測出一條read的全長。例如,Illumina構(gòu)建的小片段文庫為500bp,雙末端測序一般只會測得兩端各150bp左右的長度,中間的200bp是無法測得的。但是由于最初構(gòu)建文庫時是隨機打斷的,第一條read無法測序到中間的序列,后續(xù)的reads也會測得中間的序列。


1.png

1. 構(gòu)建大片段文庫的目的:
為了獲得reads之間的物理距離關(guān)系,方便后續(xù)的序列拼接。
2. 大片段文庫的測序過程:
步驟一: 大片段兩端加入帶生物標記的序列進行環(huán)化處理。
步驟二:后續(xù)步驟和小片段文庫測序類似

環(huán)化處理

大片段打斷成小片段測序

3. pairend和matepair文庫區(qū)別
測序的reads方向不一致,pairend相向,matepair相反。
pairend反向

matepair反向

2.2.2 測序注意事項

  • 不能一次性測序完整基因組,因為PCR技術(shù)限制了讀長,同時從樣品中提取出的基因組很難保證完整性。

  • GC偏差會影響PCR,正常GC含量為35%~65%。

  • 選擇的文庫大小和reads讀長要協(xié)調(diào);在Denove拼接過程中,先使用小片段文庫,逐漸增大文庫;

  • 二代測序不能一直測下去,因為隨著反應(yīng)進行,后續(xù)的反應(yīng)條件發(fā)生了變化;同時,在cluster過程中,由于堿基反應(yīng)的步調(diào)不一致現(xiàn)象(phasing),會導致誤差。


2.3 短序列比對

短序列比對就是將過濾好的reads重新定位到基因組上,這個過程也叫回貼(mapping)。


回貼

2.3.1 短序列比對的四種情況

一對一,無錯配
一對一,有錯配
一對多,無錯配
多對多,有錯配

2.3.2 短序列比對的應(yīng)用

1. 與自身基因組比對
1.1計算每個位點覆蓋深度
1.2 計算參考序列覆蓋比率
2. 與參考基因組比對
2.1 RNA測序計算基因表達量
2.2 變異檢測
2.3 宏基因組測序計算不同生物的豐度

2.3.3 基因差異表達計算

1. 基因結(jié)構(gòu)

基因結(jié)構(gòu)

2. 成熟mRNA

成熟mRNA

3. 基因表達差異的指標
3.1 FoldChange,不同樣本中同一個基因表達水平的變化倍數(shù),即RPKM值的差值,差值越大,變化越大。
3.2 FDR矯正,F(xiàn)DR越小,差異約顯著。

注:

  1. 轉(zhuǎn)錄起始位點位于啟動區(qū)與5‘UTR非翻譯區(qū)之間,翻譯起始位點位于 CDS起始密碼子。
  2. RPKM值消除了基因長度和測序量差異對計算基因表達的影響,可直接用于比較不同樣品間的基因表達差異(可變剪切用FPKM值)。

2.3.4 變異檢測

????單堿基的變換:轉(zhuǎn)換、顛換、缺失、插入

2.3.5 物種組成和豐度計算

步驟一:16s序列長度為1.5kb左右,不能一次性測通,采用雙末端測序得到不同的reads,質(zhì)控過濾,不能去除duplication。
步驟二:將兩條reads拼接成tags
步驟三:將不同的tags聚類成不同的OUT
步驟四:與16s數(shù)據(jù)庫進行比對,設(shè)置閾值。


2.4 序列拼接

????又稱為de nove拼接,將測序得到的reads輸入給拼接軟件,利用reads間的overlap進行拼接。
????目前序列拼接的算法有兩種:一種是Overlap-Layout-Conesensus(常用于sanger等長片段拼接),另一種是De bruijn graph(常用于illumina等短序列拼接)。但是本質(zhì)都是基于序列間的overlap來進行拼接。

常見名詞:

  • reads,測序直接得到的片段
  • pairend和matepair,文庫大小
  • insertsize,物理長度
  • kmer,將reads切割成更小的固定片段
  • contig,通過kmer之間的overlap連接成更長的片段(有時也指reads連接成contig)
  • scaffold,contigs之間通過pairend關(guān)系,連接成更長的片段

2.4.1 kmer值估計基因組大小

1. kmer定義

kmer

取reads的kmer就取兩次,正向取一次,反向互補會再取一次。

2. 利用kmer的分布圖估計基因組大小

kmer分布圖

2.4.2 基于德布萊英圖(De bruijn graph)算法拼接

1. 構(gòu)圖(gregraph)
即切kmer(13-127之間的奇數(shù)),去除頻數(shù)為1的kmer(kmer頻數(shù)為1,那么相應(yīng)的reads也只測得一次,這在高通量測序當中是幾乎不可能的)
2. 構(gòu)建contig
利用不同kmer大小的片段間的overlap形成一個德布萊英圖,然后簡化該圖,理論上該圖只有一個頭部和尾部,但是由于測序過程中,存在重復區(qū)域等情況。實際形成的德布萊英圖會有很多的頭部和尾部。然后去除較短的分支,就形成了很多的contigs,contigs彼此之間沒有overlap關(guān)系。

De bruijn graph

3. 構(gòu)建scaffold

  • 構(gòu)建過程
    通過reads之間的paired關(guān)系,將contig連接成更長的序列,就是scaffold。首先將測序的reads重新定位到contigs上,然后記錄下pairend的比對情況。落在同一contig用于計算insertsize,落在不同contig用于構(gòu)建scaffold。(例如:reads1比對到contig1的末尾150bp,reads2比對到contig2的起始150bp。而reads1和reads2之間的insetsize是500,那么contig1和contig2連接形成scaffold的過程中會有200bp的N堿基存在)

比對過程中要注意reads的方向問題

mapping

????通常比對上不同contig的pairend要有三對以上才能確定物理位置關(guān)系,進一步連接成scaffold。


image.png
  1. 當基因組中重復序列過多時,pairend關(guān)系可能不足以確定contig之間的位置關(guān)系,此時需要用到matepair文庫。
  2. 拼接的策略:首先用小片段文庫,然后逐漸加入大片段文庫。但是一般情況下很難得到一條完整的基因組序列。
  • 特點
    ①scaffolds序列的方向并不一致,有的來自正義鏈,有的來自反義鏈(但都是5‘-3’)。
    ②scaffolds之間并沒有位置關(guān)系,只是有的軟件會按照大小順序輸出。
    ③scaffold里面可能存在N堿基,但是contig序列沒有N堿基。

4. 補洞
基因組上的洞,即gaps,是由N堿基構(gòu)成的。在由contigs形成scaffold過程中會產(chǎn)生gaps。

有關(guān)gap:

  1. N堿基數(shù)目由insertsize確定,但是不完全準確
  2. N堿基來自基因組復雜區(qū)域(重復,GC異常等區(qū)域),不容易拼接出來。
  • 補洞策略
    ①利用sanger測序長片段補洞
    ②若N區(qū)域過大(超過2k),可以用pacbio測序長片短補洞
    ③利用pairend關(guān)系補洞

3. 第三代測序

主要包括三種測序技術(shù),分別利用了光信號、電信號和化學信號的轉(zhuǎn)換

3.1 PacBio公司的SMAT

1. 原理概述
應(yīng)用了邊合成邊測序的思想,以SMRT芯片為測序載體,DNA聚合酶和模板結(jié)合,用4色熒光標記 4 種堿基。在堿基配對階段,不同堿基的加入,會發(fā)出不同光,根據(jù)光的波長與峰值可判斷進入的堿基類型。保持酶活性,區(qū)別反應(yīng)信號與周圍游離堿基熒光背景是關(guān)鍵技術(shù)。

2. 特點
讀長長,測序速度快,測序錯誤率較高,達到15%,但是出錯是隨機的,可以通過多次測序來進行有效的糾錯。

3.2 Oxford公司的Nanopore

1. 原理概述
根據(jù)堿基所影響的電流變化幅度的不同,設(shè)計了一種特殊的納米孔,孔內(nèi)共價結(jié)合有分子接頭。當DNA堿基通過納米孔時,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度,靈敏的電子設(shè)備檢測到這些變化從而鑒定所通過的堿基,是一種基于電信號而不是光信號的測序技術(shù)。

2. 特點
讀長很長,達到幾十kb,甚至100kb,錯誤率在1%到4%之間,且是隨機錯誤,通量較高,能夠直接讀取出甲基化的胞嘧啶。

3.3 Ion Torrent6

1. 原理概述
該技術(shù)使用一種布滿小孔的高密度半導體芯片(一個小孔就是一個測序反應(yīng)池)。當DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時,會釋放出一個氫離子,從而引起反應(yīng)池中的PH發(fā)生改變,位于池下的離子感受器將感受到氫離子信號直接轉(zhuǎn)化為數(shù)字信號,從而讀出DNA序列。
2. 特點
成本相對較低,操作簡單,速度較快,但是通量不高。


4. 總結(jié)

不同測序平臺的比較
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容