1. 一代測序(Sanger sequencing)
雙脫氧鏈終止法采用DNA復制原理。 Sanger測序反應體系中包括目標DNA片段、脫氧三磷酸核苷酸(dNTP)、雙脫氧三磷酸核苷酸(ddNTP)、測序引物及DNA聚合酶等。 測序反應的核心就是其使用的ddNTP:由于缺少3'-OH基團,不具有與另一個dNTP連接形成磷酸二酯鍵的能力,這些ddNTP可用來中止DNA鏈的延伸。此外,這些ddNTP上連接有放射性同位素或熒光標記基團,因此可以被自動化的儀器或凝膠成像系統所檢測到。
設置四個反應體系1-4,分別加入引物、DNA聚合酶、四種dNTP、一定比例的ddNTP(帶有放射性標記)例如1中是ddATP,它就負責測定T堿基的位置;依次2是ddCTP,3是ddTTP, 4是ddGTP。假如擴增過程中ddATP遇到了T位點,就結合并終止(因為ddNTP的2‘和3'都沒有羥基),一段時間內大量的ddNTP會結合完所有測序位點。
最后利用凝膠電泳和放射自顯影只能看到帶有熒光標記的ddNTP,他們的排列順序先利用電泳條帶前后關系確定下,再用A-T, T-A, C-G, G-C關系反轉一下,就能知道我們的測序序列。
一代測序技術的主要特點就是測序讀長可達1000bp,準確性高達99.999%,二三代所不能及),但它的通量低,成本高。目前一代測序在驗證序列(就是平時送公司測序返回來自己blast的那些)以及驗證基因組組裝完整性方面都是金標準。
2. 二代測序(sequencing by synthesis,SBS)
Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術標志第二代測序技術誕生。其中Roche公司的454測序系統是第二代測序技術中第一個商業化運營的測序平臺。
其中Illumina市場規模占到75%以上,主要包括Miseq,Hiseq。下面??就主要介紹它的PE(Pair End雙端)測序原理:
2.1文庫構建
名詞:
flowcell: 測序反應的載體/容器,1個flowcell有8個lane
lane: 測序反應的平行泳道,試劑添加、洗脫等過程的發生位置
tile: 每次熒光掃描的位置,肉眼是看不到的
雙端測序: 可能序列比較長有四五百bp,兩邊各測120-150bp
junction: 雙端測序中間一些沒有測到的區域
index(barcode):一個lane通常要測多個樣品,每個樣品都加上特定的序列標簽,用于區分不同樣品。
flowcell構造:一個lane包含兩列(swath),每一列有60個tile,每個tile會種下不同的cluster,每個tile在一次循環中會拍照4次(每個堿基一次)
打斷以后會出現末端不平整的情況,用酶補平,所以現在的序列是平末端。
完成補平以后,在3'端使用酶加上一個特異的堿基A,加上A之后就可以利用互補配對的原則,加上adapter,這個adpater可以分成兩個部分,一個部分是測序的時候需要用的引物序列,另一部分是建庫擴增時候需要用的引物序列。
進行PCR擴增,使得我們的DNA樣品濃度足夠上機要求。
什么是插入片段?
reads1 與 reads2 不發生重疊
-
圖中是Pair-End(PE)測序,測的是兩個末端,得到的序列是Read1和Read2,很多時候Read1+Read2的長度都是小于這個插入片段的長度的。在不測通的情況下,它中間一定有一段不明長度的序列我們無法測到,這段不被測到的序列有時被稱為Inner序列,它的長度是Read1和Read2相距的距離。
imagereads1 與 reads2 發生重疊
-
測序讀長較長,比如MiSeq的測序讀長可以到達250bp,PE測的話,Read1+Read2就達到500bp,如果我們的建庫序列長度是400bp,那么就會被測通,而且中間有約100bp是Read1和Read2重疊測到的區域。
image測通
它是Read重疊的進一步延伸,原因是相同的,就是有些插入片段長度太短了,導致Read能夠完全跨越整個插入片段,比如圖里,所有長度小于100bp的插入片段,它們都會被測通,而且還會直接測到片段兩端的接頭序列,這時就需要對產生的數據進行cut adapter。image
2.2 上樣
flowcell是用于吸附流動DNA片段的槽道,測序就在此進行。上面構建好的文庫中的待測序列事先配置好一定的濃度,經過這里的時候,會在特異的化學試劑作用下,強力隨機地附著在lane上,與上面的短序列配對。上樣的結果就是lane吸附住了沖過來的DNA,并且可以在表面進行橋式PCR擴增。
2.3 橋式PCR
第一輪擴增模版:flowcell表面固定的序列 --> 模版鏈
去雜:加入NaOH強堿性溶液使雙鏈DNA變性,互補鏈由于和lane上短序列強力連接固定住了;模板鏈失去了雙鏈氫鍵連接,好似懸空,它會被洗脫。
橋式形成: 加入緩沖溶液,互補鏈的p7‘和lane上的p7互補(但還是一個lane中的)就像下圖這樣(摘自illumina官網)目的是快速擴增lane p7接頭連接的鏈,也就是下圖中的Forward Strand,它和我們的模版鏈是一致的。我們后來測序只用這一半。
橋式PCR: PCR彎成橋狀,一輪橋式擴增一倍。
循環: 大約35個循環后,最終每個DNA片段都將在各自的位置上集中成束,稱為cluster,這是一群完全相同的序列。目的在于實現放大單一堿基的信號強度,滿足后期測序需求。
-
解鏈: 橋式PCR完成后,形成了很多的橋形的互補雙鏈,再次強堿解鏈。這一次不再進行復制,而是利用一種酶--甲酰胺基嘧啶糖苷酶(Fpg)選擇性的切掉lane 上p5‘ 連接的鏈,只留下了與lane p7連接的鏈即Forward Strand。
imageimageimage
2.4 測序
雙端測序之Forward Strand:
先是primer結合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羥基被疊氮基團替代,因此每次只能添加一個dNTP;還含有熒光基團,能激發不同顏色】;
在dNTP被添加到合成鏈上后,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉;再加入激發熒光緩沖液,用激光激發熒光信號,光學設備記錄熒光信號的記錄,計算機將光學信號轉化為測序堿基,這一個循環就能測定flowcell上成千上萬的cluster,這就實現了高通量。
再加入化學試劑淬滅熒光信號并使dNTP 3’ 疊氮基團變成羥基,這樣能繼續向下進行再加一個,并且保證這個不再發出熒光。如此重復直至所有鏈的堿基序列被檢測出。得到了Forward Strand序列。
-
因為一個cluster的序列是一樣的,所以理論上cluster的熒光顏色應該一致。
imageIndex測序: 上面的循環結束后,read product被沖掉,index1 primer和鏈上的index1 互補配對,進行index1的檢測。測完后,洗脫產物,得到index1 的序列。接下來p5與lane上的p5‘配對,測得了index2,并洗脫。
image雙端測序之Reverse Strand:
洗脫掉index2 產物后,還是一個橋式擴增,得到雙鏈,再變性得到原始Forward strand 和 新的Reverse Strand, 除去測完的Forward strand。然后和測Forward一樣,也是先連接primer,只是連接的位點是Primer Binding Site2,測完后得到reverse strand序列。
single-end只將index,Primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接連上P5/P7,將片段固定在Flowcell上橋式PCR生成DNA簇,然后單端測序讀取序列
為什么Illumina測序會有長度限制呢?
- 測序時,經過長時間的PCR,會有不同步的情況。通俗一點講,比如一開始1個cluster中是100個完全一樣的DNA鏈,但是經過1輪增加堿基,其中99個都加入了1個堿基,顯示了紅色,另外1個沒有加入堿基,不顯示顏色。這時候整體為紅色,我們可以順利得到結果。隨后,在第2輪再加入堿基進行合成的時候,就變成了,之前沒有加入的加入了1個堿基顯示紅色,剩下的99個顯示綠色,這個時候就會出現雜信號。當測序長度不斷延長,這個雜信號會越來越多,最后很有可能出現,50個紅,50個綠色,這時候我們判斷不出來到底是什么堿基被合成。
2.測序過程中,使用的堿基是特殊處理的,有一個非常大的熒光基團修飾。在使用DNA ploymerase的時候,酶的狀態也會受到底物的影響,越來越差。
2.5 數據產生:
Hiseq2000測序儀
測序儀搭配了兩個flowcell,簡稱雙流動槽。比較經典的Hiseq2500一次能產出700-800Gb數據(此處Gb為測序堿基數,不同于字節數的Gb)
數據量=單端reads長度 * 單端reads個數 * 2(PE)
測序深度=數據量大小 / 參考基因組大小
第三代測序技術
這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標志,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的。
PacBio SMRT
-
PacBio SMRT技術其實也應用了邊合成邊測序的思想,并以SMRT芯片為測序載體(如同flowcell)。基本原理是: DNA聚合酶和模板結合,用4色熒光標記A,C,G,T這4種堿基(即是dNTP)。在堿基的配對階段,不同的堿基加入,會發出不同的光,根據光的波長與峰值可判斷進入的堿基類型。
image
這個DNA聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其造成的損傷所影響。PacBio SMRT技術的一個關鍵點是在于如何將反應信號與周圍游離堿基的強大熒光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴格要求的,如果直徑大于微波波長,能量就會在衍射效應的作用下穿透面板從而泄露出來(光波的衍射效應),從而與周圍小孔相互干擾(光波的干涉)。如果孔徑能夠小于波長,那么能量就不會輻射到周圍,而是保持直線狀態,從而可起到保護的作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導孔),外徑100多納米,比檢測激光波長小(數百納米),激光從底部打上去后不會穿透小孔進入上方的溶液區,能量會被限制在一個小范圍(體積20X 10-21 L)里,正好足夠覆蓋需要檢測的部分,使得信號僅僅只是來自于這個小反應區域,孔外過多的游離核苷酸單體依然留在黑暗中,從而實現將背景噪音降到最低的目的。
- PacBio SMRT技術除了能夠檢測普通的堿基之外,還可以通過檢測相鄰兩個堿基之間的測序時間,來檢測堿基的表觀修飾情況,如甲基化。因為假設某個堿基存在表觀修飾,則通過聚合酶時的速度會減慢,那么相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息。
- SMRT技術的測序速度很快,每秒約10個dNTP。但這么快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),可以達到10%-15%,而且以缺失序列和錯位居多,但好在它的出錯是隨機的,并不會像第二代測序技術那樣存在一定的堿基偏向(PCR biasing),因此可以通過多次測序來進行有效糾錯。
Oxford Nanopore
-
這個技術的關鍵點在于他們所設計的一種特殊納米孔,孔內共價結合分子接頭。當DNA分子通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),最后高靈敏度的電子設備檢測到這些變化從而鑒定所通過的堿基。
image 納米孔測序以及其他第三代測序技術,有可能會徹底地解決目前第二代測序平臺的諸多不足。另外,MinION的主要特點是:讀長很長,而且比PacBio的都長得多,基本都是在幾十kb上百kb以上,最新的數據顯示可以達到900 kb!錯誤率是5%-15%,也是隨機錯誤,MinION最大的特點除了極小的體積之外,就是數據將是可實時讀取/的,并且起始DNA在測序過程中不被破壞!這種納米孔單分子測序儀還有另一大特點,它能夠直接讀取出甲基化的胞嘧啶,而不必像二代測序方法那樣需要事先對基因組進行bisulfite(酸性亞硫酸鹽)處理。這對于在基因組水平直接研究表觀遺傳相關現象有極大的幫助。
參考文章:
1.http://www.lxweimin.com/p/101c14c3a1d2
2.https://zhuanlan.zhihu.com/p/20702684
3.https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4.https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A
原作者:顫抖吧__小蟲子
鏈接:http://www.lxweimin.com/p/e6527ce46b0c