1. 第一代測序(Sanger測序)
關(guān)鍵詞:雙脫氧測序、末端終止測序
1.1 正常DNA的合成過程
在模板鏈和引物存在的條件下,核糖體RNA分別將四種脫氧核糖酸(dNTP)運輸至引物末端。然后按照堿基互補配對原則脫水形成5'-3'磷酸二酯鍵。
1.2 Sanger測序原理
使用鏈終止法,即向反應(yīng)體系中同時加入脫氧核糖酸(dNTP)和雙脫氧核糖(ddNTP)。兩者均可隨機整合到模板鏈上形成DNA,但是ddNTP由于缺少羥基(-OH),在整合到模板鏈條上,反應(yīng)隨機終止。利用ddNTP的這一特點,結(jié)合檢測電泳條帶或者利用光源信號傳導即可獲得序列。
1.3 Sanger測序優(yōu)缺點
優(yōu)點:
- 方法簡單,準確率高,測序片段較長,一次可達1kb。
缺點:
- 成本高,通量低
2. 第二代測序(Illumina測序為例)
關(guān)鍵詞:橋式PCR,可逆末端終止,高通量,邊合成邊測序
Illumina公司的Solexa和Hiseq兩個系列的機器是目前全球使用量最大的第二代測序機器,為了獲得完整的基因組,通常包括三個階段:測序、短序列比對和序列拼接。
IIIumina測序數(shù)據(jù)的特點:讀長短、具有一定的錯誤率、深度高、reads之間具有pairend關(guān)系
2.1 測序
根據(jù)測序的流程大致分為三步,測序完成得到原始數(shù)據(jù)在進入短序列拼接之前還會進行質(zhì)量評估和控制等中間過程。
制備DNA基因組樣本時,選擇單倍體、樣品的總量和DNA濃度OD需要達到要求,注意不要降解
2.1.1 第一步:構(gòu)建基因文庫
步驟一:利用超聲波將待測的DNA樣品打斷成小片段,通常為500bp左右。
步驟二:修復小片段為平末端,進一步在平末端添加A堿基,形成黏性末端。
步驟三:在粘性末端添加adapter接頭、測序引物、index標簽等。
文庫:就是DNA片段的一個集合,將測序片段打斷之后就構(gòu)成了一個文庫,通常片段小于1kb的文庫稱為小片段文庫(pairend),大于1kb的文庫稱為大片段文庫(matepair)。文庫的大小又被成為insert size,可用于后續(xù)的拼接。
2.1.2 第二步:橋式PCR
步驟一:液體流過流動池(Flowcell)之后,單條DNA序列會被固定到流動池上。
步驟二:進行多次橋式PCR擴增。
步驟三:多余的DNA序列會被液體沖走,在流動池上留下一簇一簇相同的DNA單鏈。
橋式PCR的目的是為了增大信號源,便于檢測,其詳細的原理可以參考:
Seurat_
2.1.3 第三步:測序
步驟一:向反應(yīng)體系中加入DNA聚合酶、接頭引物和帶有堿基特異熒光標記的4種dNTP。
步驟二:合成第一個堿基后,不能正常進行后續(xù)反應(yīng).
步驟三:清除剩余未使用的堿基和試劑。
步驟四:激發(fā)堿基熒光并收集信號。
步驟五:去除第一堿基的阻斷基團和熒光基團。
步驟六:循環(huán)進行步驟一至步驟五。
每條序列需要進行兩次測序,正向引物完成測序之后,會被液體沖走,然后利用反向引物進行另一端的測序。
2.1.4 測序飽和度評估
-
目的:推測測序所需要的最小數(shù)據(jù)量,理論上10倍數(shù)據(jù)量已經(jīng)足夠,但是實際上還存在其他誤差,因此會高于這個數(shù)值。
理論最小值
2.1.5 數(shù)據(jù)質(zhì)控
1. 兩個指標
- 堿基含量分布:測序后的GC含量要和基因組GC含量相同。
- 堿基質(zhì)量分布:Q20堿基百分比(一般要求在90%以上),Q30堿基百分比(一般要求在85%以上)
Q20指這個位點的堿基的錯誤率為百分之一,Q30為千分之一。
2. 用fastqc可以生成質(zhì)量控制報告
2.1.6 測數(shù)數(shù)據(jù)處理——過濾
- 非基因組序列。包括adapter接頭、測序引物、index標簽等。
- N堿基過多的reads。通常N堿基的占比超過read的10%以上會被去除。
- 低質(zhì)量reads。以Q20為標準,低于一定的Q20比率會被去除。
- 去除duplication。兩對完全一致的reads會去除一對。
注:
- pairend的reads只要有一條reads不滿足條件,兩條reads都需要去除。
- 在RNA-seq和16s測序過程中不能去除duplication,否則會丟失一些豐度信息。
2.2 測序拓展內(nèi)容
2.2.1 大片段文庫
實際上無論是大片段文庫或者小片段文庫,都無法完全測出一條read的全長。例如,Illumina構(gòu)建的小片段文庫為500bp,雙末端測序一般只會測得兩端各150bp左右的長度,中間的200bp是無法測得的。但是由于最初構(gòu)建文庫時是隨機打斷的,第一條read無法測序到中間的序列,后續(xù)的reads也會測得中間的序列。
1. 構(gòu)建大片段文庫的目的:
為了獲得reads之間的物理距離關(guān)系,方便后續(xù)的序列拼接。
2. 大片段文庫的測序過程:
步驟一: 大片段兩端加入帶生物標記的序列進行環(huán)化處理。
步驟二:后續(xù)步驟和小片段文庫測序類似
3. pairend和matepair文庫區(qū)別
測序的reads方向不一致,pairend相向,matepair相反。
2.2.2 測序注意事項
不能一次性測序完整基因組,因為PCR技術(shù)限制了讀長,同時從樣品中提取出的基因組很難保證完整性。
GC偏差會影響PCR,正常GC含量為35%~65%。
選擇的文庫大小和reads讀長要協(xié)調(diào);在Denove拼接過程中,先使用小片段文庫,逐漸增大文庫;
二代測序不能一直測下去,因為隨著反應(yīng)進行,后續(xù)的反應(yīng)條件發(fā)生了變化;同時,在cluster過程中,由于堿基反應(yīng)的步調(diào)不一致現(xiàn)象(phasing),會導致誤差。
2.3 短序列比對
短序列比對就是將過濾好的reads重新定位到基因組上,這個過程也叫回貼(mapping)。
2.3.1 短序列比對的四種情況
2.3.2 短序列比對的應(yīng)用
1. 與自身基因組比對
1.1計算每個位點覆蓋深度
1.2 計算參考序列覆蓋比率
2. 與參考基因組比對
2.1 RNA測序計算基因表達量
2.2 變異檢測
2.3 宏基因組測序計算不同生物的豐度
2.3.3 基因差異表達計算
1. 基因結(jié)構(gòu)
2. 成熟mRNA
3. 基因表達差異的指標
3.1 FoldChange,不同樣本中同一個基因表達水平的變化倍數(shù),即RPKM值的差值,差值越大,變化越大。
3.2 FDR矯正,F(xiàn)DR越小,差異約顯著。
注:
- 轉(zhuǎn)錄起始位點位于啟動區(qū)與5‘UTR非翻譯區(qū)之間,翻譯起始位點位于 CDS起始密碼子。
- RPKM值消除了基因長度和測序量差異對計算基因表達的影響,可直接用于比較不同樣品間的基因表達差異(可變剪切用FPKM值)。
2.3.4 變異檢測
????單堿基的變換:轉(zhuǎn)換、顛換、缺失、插入
2.3.5 物種組成和豐度計算
步驟一:16s序列長度為1.5kb左右,不能一次性測通,采用雙末端測序得到不同的reads,質(zhì)控過濾,不能去除duplication。
步驟二:將兩條reads拼接成tags
步驟三:將不同的tags聚類成不同的OUT
步驟四:與16s數(shù)據(jù)庫進行比對,設(shè)置閾值。
2.4 序列拼接
????又稱為de nove拼接,將測序得到的reads輸入給拼接軟件,利用reads間的overlap進行拼接。
????目前序列拼接的算法有兩種:一種是Overlap-Layout-Conesensus(常用于sanger等長片段拼接),另一種是De bruijn graph(常用于illumina等短序列拼接)。但是本質(zhì)都是基于序列間的overlap來進行拼接。
常見名詞:
- reads,測序直接得到的片段
- pairend和matepair,文庫大小
- insertsize,物理長度
- kmer,將reads切割成更小的固定片段
- contig,通過kmer之間的overlap連接成更長的片段(有時也指reads連接成contig)
- scaffold,contigs之間通過pairend關(guān)系,連接成更長的片段
2.4.1 kmer值估計基因組大小
1. kmer定義
取reads的kmer就取兩次,正向取一次,反向互補會再取一次。
2. 利用kmer的分布圖估計基因組大小
2.4.2 基于德布萊英圖(De bruijn graph)算法拼接
1. 構(gòu)圖(gregraph)
即切kmer(13-127之間的奇數(shù)),去除頻數(shù)為1的kmer(kmer頻數(shù)為1,那么相應(yīng)的reads也只測得一次,這在高通量測序當中是幾乎不可能的)
2. 構(gòu)建contig
利用不同kmer大小的片段間的overlap形成一個德布萊英圖,然后簡化該圖,理論上該圖只有一個頭部和尾部,但是由于測序過程中,存在重復區(qū)域等情況。實際形成的德布萊英圖會有很多的頭部和尾部。然后去除較短的分支,就形成了很多的contigs,contigs彼此之間沒有overlap關(guān)系。
3. 構(gòu)建scaffold
-
構(gòu)建過程
通過reads之間的paired關(guān)系,將contig連接成更長的序列,就是scaffold。首先將測序的reads重新定位到contigs上,然后記錄下pairend的比對情況。落在同一contig用于計算insertsize,落在不同contig用于構(gòu)建scaffold。(例如:reads1比對到contig1的末尾150bp,reads2比對到contig2的起始150bp。而reads1和reads2之間的insetsize是500,那么contig1和contig2連接形成scaffold的過程中會有200bp的N堿基存在)
比對過程中要注意reads的方向問題
????通常比對上不同contig的pairend要有三對以上才能確定物理位置關(guān)系,進一步連接成scaffold。
- 當基因組中重復序列過多時,pairend關(guān)系可能不足以確定contig之間的位置關(guān)系,此時需要用到matepair文庫。
- 拼接的策略:首先用小片段文庫,然后逐漸加入大片段文庫。但是一般情況下很難得到一條完整的基因組序列。
-
特點
①scaffolds序列的方向并不一致,有的來自正義鏈,有的來自反義鏈(但都是5‘-3’)。
②scaffolds之間并沒有位置關(guān)系,只是有的軟件會按照大小順序輸出。
③scaffold里面可能存在N堿基,但是contig序列沒有N堿基。
4. 補洞
基因組上的洞,即gaps,是由N堿基構(gòu)成的。在由contigs形成scaffold過程中會產(chǎn)生gaps。
有關(guān)gap:
- N堿基數(shù)目由insertsize確定,但是不完全準確
- N堿基來自基因組復雜區(qū)域(重復,GC異常等區(qū)域),不容易拼接出來。
- 補洞策略
①利用sanger測序長片段補洞
②若N區(qū)域過大(超過2k),可以用pacbio測序長片短補洞
③利用pairend關(guān)系補洞
3. 第三代測序
主要包括三種測序技術(shù),分別利用了光信號、電信號和化學信號的轉(zhuǎn)換
3.1 PacBio公司的SMAT
1. 原理概述
應(yīng)用了邊合成邊測序的思想,以SMRT芯片為測序載體,DNA聚合酶和模板結(jié)合,用4色熒光標記 4 種堿基。在堿基配對階段,不同堿基的加入,會發(fā)出不同光,根據(jù)光的波長與峰值可判斷進入的堿基類型。保持酶活性,區(qū)別反應(yīng)信號與周圍游離堿基熒光背景是關(guān)鍵技術(shù)。
2. 特點
讀長長,測序速度快,測序錯誤率較高,達到15%,但是出錯是隨機的,可以通過多次測序來進行有效的糾錯。
3.2 Oxford公司的Nanopore
1. 原理概述
根據(jù)堿基所影響的電流變化幅度的不同,設(shè)計了一種特殊的納米孔,孔內(nèi)共價結(jié)合有分子接頭。當DNA堿基通過納米孔時,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度,靈敏的電子設(shè)備檢測到這些變化從而鑒定所通過的堿基,是一種基于電信號而不是光信號的測序技術(shù)。
2. 特點
讀長很長,達到幾十kb,甚至100kb,錯誤率在1%到4%之間,且是隨機錯誤,通量較高,能夠直接讀取出甲基化的胞嘧啶。
3.3 Ion Torrent6
1. 原理概述
該技術(shù)使用一種布滿小孔的高密度半導體芯片(一個小孔就是一個測序反應(yīng)池)。當DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時,會釋放出一個氫離子,從而引起反應(yīng)池中的PH發(fā)生改變,位于池下的離子感受器將感受到氫離子信號直接轉(zhuǎn)化為數(shù)字信號,從而讀出DNA序列。
2. 特點
成本相對較低,操作簡單,速度較快,但是通量不高。