參考
illumina測(cè)序-過(guò)程
illumina原理-陳巍
第3題,illumina測(cè)序技術(shù)細(xì)節(jié)探究I
目前我們最常使用的就是Illumina公司的測(cè)序技術(shù),Illumina公司的測(cè)序技術(shù)最明顯的幾個(gè)特點(diǎn)是:價(jià)格低,通量高,測(cè)序讀長(zhǎng)短。那么我們今天的問(wèn)題,就是圍繞Illumina測(cè)序技術(shù)的細(xì)節(jié)來(lái)提問(wèn)的。
illumina測(cè)序的步驟
樣本準(zhǔn)備;cluster生成;測(cè)序和數(shù)據(jù)分析
part1 準(zhǔn)備樣品Sample Prep
所有制備方法都在DNA片段的末端添加接頭adapter
通過(guò)循環(huán)擴(kuò)增的減少,額外的motif被引入
例如引入的測(cè)序結(jié)合位點(diǎn)
還有標(biāo)簽和 與Flowcell(流動(dòng)池)寡核苷酸互補(bǔ)的區(qū)域
part2 成簇 cluster生成
Flowcell 是帶有流通槽的玻璃滑塊
每個(gè)流通槽Lane上固定了lawn
lawn由兩種不同的oligos寡聚核苷酸引物組成
待測(cè)序的寡核苷酸片段和在flowcell上的兩種引物之一結(jié)合,引物和片段鏈fragment strands的街頭區(qū)域互補(bǔ)
聚合酶生成雜交片段的互補(bǔ)片段
雙鏈分子變性,原始模版被洗去
鏈通過(guò)橋式擴(kuò)增進(jìn)行克隆擴(kuò)增;此過(guò)程中strand折疊,并且接頭部分和flowcell上的另外一種類型的寡聚物雜交
聚合酶合成互補(bǔ)鏈,形成雙鏈橋
該橋變性后導(dǎo)致分子的2個(gè)單鏈拷貝
然后被固定在flowcell
隨后該過(guò)程反復(fù)進(jìn)行重復(fù)
同時(shí)生成數(shù)百萬(wàn)個(gè)簇cluster,所有片段被克隆擴(kuò)增
橋式擴(kuò)增以后,反向鏈被切斷洗去
僅僅留下正向鏈
且3’端被封鎖以防非特異性結(jié)合
測(cè)序從第一個(gè)測(cè)序引物的延伸開(kāi)始
先生成第一個(gè)讀段read,四個(gè)帶不同熒光的堿基配對(duì),直到配對(duì)正確
熒光標(biāo)記的核苷酸競(jìng)爭(zhēng)加入生長(zhǎng)鏈
在添加每種核苷酸nucleotide之后,簇cluster被光源激發(fā),這個(gè)專門(mén)的過(guò)程叫做sequence-by-synthesis
所有相同的strandsare線同時(shí)讀取
這是大規(guī)模的并行過(guò)程,
數(shù)以千計(jì)的簇被測(cè)序
該圖像代表flowcell的一小部分
在結(jié)束第一次熒光信號(hào)的判斷以后,這段產(chǎn)物被洗去
在該步驟中,索引1的讀段引物read primer,被引入并與模板雜交
類似于第一次的read生成,新的read產(chǎn)生了
在索引讀段index read結(jié)束后,該段產(chǎn)物被洗掉,模板3端去保護(hù)
模版重新折疊
并結(jié)合flowcell的第二個(gè)寡核苷酸
索引2 index2和index1 索引1以相同的方式讀取
聚合酶延伸第二個(gè)flowcell寡核苷酸,再次形成一個(gè)雙鏈橋
然后將該雙鏈DNA線性化
并將3端封鎖
原始正項(xiàng)鏈被切除并洗去,只留下反向鏈
Read2第二次判讀開(kāi)始于讀段read2測(cè)序引物的引入
和Read1一樣,測(cè)序步驟從形成primer開(kāi)始被重復(fù),直到達(dá)到預(yù)期的read長(zhǎng)度
然后將read2 product讀段2產(chǎn)物洗走
這整個(gè)過(guò)程產(chǎn)生了數(shù)百萬(wàn)個(gè)讀段,代表所有的片段
來(lái)自樣品庫(kù)pool sample libraries的序列被分離
因?yàn)樵跇悠窚?zhǔn)備過(guò)程中用了不同的indices引物(我的理解是,樣品庫(kù)的DNA被引入了不同的引物擴(kuò)增)
對(duì)于一個(gè)sample而言,reads with similiar stretches of base calls are locally clustered,意思是有相似堿基序列的reads被聚類
正向和反向讀段read被配對(duì)生成連續(xù)序列
這些連續(xù)序列與參考基因組對(duì)齊,用于突變識(shí)別
終端配對(duì)信息被用于確定有歧義的對(duì)齊(不太理解)
1. 什么是Illumina測(cè)序adapter?同一批上機(jī)的adapter序列一樣嗎?它的作用是什么?
adapter的中文意思為適配器或者接口,在illumina測(cè)序過(guò)程中關(guān)鍵一步是將文庫(kù)片段固定在flowcell上,然后通過(guò)橋式PCR將片段擴(kuò)增,在被打斷成300~500bp的長(zhǎng)度的片段末端被補(bǔ)平后adapter將被添加到片段兩端,一方面用于將片段固定在flowcell上,同時(shí)adaptor中還包含橋式PCR所需要的引物
2. 一個(gè)完整的Illumina測(cè)序過(guò)程是那幾步?
完整的測(cè)序過(guò)程僅包含兩步,第一是橋式PCR擴(kuò)增,第二是以4色熒光可逆終止反應(yīng)為核心技術(shù)的測(cè)序;
3. 什么是橋式PCR技術(shù)?為什么要進(jìn)行橋式PCR?
加上adapter之后的DNA樣品與flowcell上固定的oligo(寡鏈核苷酸)匹配后就被固定在flowcell上,通過(guò)橋式PCR進(jìn)行擴(kuò)增成cluster,便于后面的熒光測(cè)序,主要步驟為:
- 進(jìn)行第一輪擴(kuò)增,將序列補(bǔ)成雙鏈。加入NaOH強(qiáng)堿性溶液破壞DNA的雙鏈,并洗脫。由于最開(kāi)始的序列是使用化學(xué)鍵連接的,所以不會(huì)被洗。
- 加入緩沖溶液,這時(shí)候序列自由端的部分就會(huì)和旁邊的oligo進(jìn)行匹配
- 進(jìn)行一輪PCR,在PCR的過(guò)程中,序列是彎成橋狀,所以叫橋式PCR,一輪橋式PCR可以使得序列擴(kuò)增1倍
- 如此循環(huán)下去,就會(huì)得到一個(gè)具有完全相同序列的cluster
4. 我們都說(shuō),測(cè)序結(jié)果會(huì)包含index,那么index是什么?有什么作用?
- 一條lane能測(cè)得的數(shù)據(jù)量在30G左右,而一個(gè)樣品的測(cè)序量一般不會(huì)這么大,所以在建庫(kù)的時(shí)候?qū)γ恳环N樣品的接頭加上不同的標(biāo)簽序列,這個(gè)標(biāo)簽就叫做Index,有了index就可以同時(shí)在一個(gè)lane中測(cè)多種數(shù)據(jù)了,后期可以根據(jù)index將數(shù)據(jù)分開(kāi);
5. 我們所說(shuō)的flowcell,lane,tile都是什么意思?
-
flowcell 是指Illumina測(cè)序時(shí),測(cè)序反應(yīng)發(fā)生的位置,1個(gè)flowcell含有8條lane通道,通道內(nèi)表面有專門(mén)的化學(xué)修飾
image.png
- lane 每一個(gè)flowcell上都有8條泳道,用于測(cè)序反應(yīng),可以添加試劑,洗脫等等;每條通道內(nèi)表面有化學(xué)修飾,主要是兩種DNA引物,把它(2中DNA引物)種在玻璃的表面,和DNA文庫(kù)的接頭序列是相互互補(bǔ)的,這兩種引物是通過(guò)共價(jià)鍵連到flowcell上去的,之所以要用共價(jià)鍵連接是因?yàn)榻酉聛?lái)有大量的液體要流過(guò)這個(gè)flowcell,只有有共價(jià)鍵連接的這些DNA,才不會(huì)被沖掉,這就是flowcell
image.png - tile 每一次測(cè)序熒光掃描的最小單位
Illumina測(cè)序結(jié)果質(zhì)量表示方法采用的是Phred33還是Phred64?
- 最新的測(cè)序質(zhì)量結(jié)果一般都為Phred33,但是早期的測(cè)序數(shù)據(jù)可能出現(xiàn)Phred64。
illumina的流程
6.DNA文庫(kù)及其制作
所謂的DNA文庫(kù)實(shí)際上是許多個(gè)DNA的片段,在兩頭接上了特定的DNA接頭形成的DNA混合物
文庫(kù)有兩個(gè)特點(diǎn):
1.第一個(gè)特點(diǎn),是當(dāng)中這一段插入的DNA它的序列是各種各樣的(??)
2.第二個(gè)特點(diǎn),它兩頭的接頭序列是已知的,而且是人工特地加上去的
文庫(kù)的制作:
首先是把基因組DNA,用超聲波打斷,打斷以后兩頭用酶補(bǔ)平
再用Klenow酶在3端加上一個(gè)A堿基
然后用連接酶把接頭給連上去
連好了接頭的DNA文庫(kù)就被我們成為一個(gè)“文庫(kù)” or “l(fā)ibrary”
7.做好library就要做橋式PCR了
簡(jiǎn)而言之,橋式PCR實(shí)際上是把文庫(kù)種到芯片上去然后擴(kuò)增的一個(gè)過(guò)程。
該過(guò)程首先是把文庫(kù)加入芯片上去,因?yàn)槲膸?kù)兩頭的DNA序列,和芯片上的引物是互補(bǔ)的,所以就會(huì)產(chǎn)生互補(bǔ)雜交
再橋式PCR完成以后呢,要把合成的雙鏈變成可以測(cè)序的單鏈,辦法是通過(guò)一個(gè)化學(xué)反應(yīng),把一個(gè)引物上的一個(gè)特定的基團(tuán)給切斷掉,然后再用堿溶液來(lái)洗這個(gè)芯片,此時(shí)堿讓DNA的雙鏈解鏈
只留下那根 以共價(jià)鍵連在芯片上面的鏈
8.正式開(kāi)始測(cè)序工作
接下來(lái)再加入中性溶液,然后在這個(gè)中性溶液中加入測(cè)序引物
測(cè)序時(shí)加入的最重要的有兩樣?xùn)|西,
一是需要加入聚合酶,聚合酶就會(huì)選擇哪一個(gè)dNTP是和原來(lái)位置上的那個(gè)堿基和互補(bǔ)的,根據(jù)互補(bǔ)原理把這個(gè)dNTP合成到新的這個(gè)鏈上去
二是帶有熒光標(biāo)記的dNTP,該dNTP的特點(diǎn)是--它的3’末端是被一個(gè)疊氮基堵住的,
因?yàn)檫@個(gè)dNTP的3端是被一個(gè)疊氮基團(tuán)給堵住了,所以,它一個(gè)循環(huán)只能延長(zhǎng)一個(gè)堿基
合成之后就停在那了,因?yàn)橛携B氮基團(tuán)阻止繼續(xù)合成,合成以后呢就用水把多余的dNTP和酶給沖掉
沖掉以后就放到顯微鏡下去激光掃描
根據(jù)發(fā)出來(lái)的熒光判斷它是哪個(gè)堿基
因?yàn)?種dNTP上面標(biāo)的熒光素都不一樣,那么根據(jù)紅黃藍(lán)綠它出來(lái)的顏色就可以倒推這個(gè)新合成上去的堿基是哪種堿基,因?yàn)樾潞铣傻膲A基是和原來(lái)位置的堿基是互補(bǔ)的,所以又可以反過(guò)來(lái)推出模板上的堿基的種類,這一個(gè)循環(huán)完成以后呢,就加入一些化學(xué)試劑把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)給切掉,
切完了以后呢,3端的羥基就暴露出來(lái)了
再接下來(lái)呢,加入新的dNTP和新的酶,然后又延長(zhǎng)一個(gè)堿基,新延長(zhǎng)一個(gè)堿基之后呢,把多余的酶和dNTP沖掉,再進(jìn)行一輪顯微的激光掃描,再讀一下這個(gè)堿基的種類
不斷重復(fù)這個(gè)過(guò)程,可以重復(fù)上百次到幾百次,重復(fù)這個(gè)過(guò)程上百趟就可以把這個(gè)序列的信息讀出來(lái)了
9. 接下來(lái)要讀index
什么是index呢,因?yàn)閕llumina的測(cè)序量很大,往往一個(gè)樣本呢用不了幾億個(gè)DNA,所以科學(xué)家就想了一個(gè)辦法。
什么辦法呢?
就是在文庫(kù)的接頭上做了一些標(biāo)記,那么對(duì)于每一個(gè)樣本而言,它有一個(gè)特定的接頭,每個(gè)接頭里面呢有一段特定的序列,那么這段特定的序列我們就稱為index,也有人把它叫做barcode,
表達(dá)的意思就是:這么一段特定的序列,標(biāo)記了樣本的來(lái)源
因?yàn)橐粋€(gè)flowcell可以測(cè)幾億個(gè)DNA,通常是把不同處理?xiàng)l件下的樣品的打斷的RNA-sequences(reads,加index+barcode)的PCR樣品同時(shí)加到一個(gè)flowcell上面測(cè)序,為了區(qū)分reads的來(lái)源,在adapter和insert之間加上特定的核苷酸序列barcode/index,就可以區(qū)分不同來(lái)源的reads。
加index通常用于區(qū)分不同處理組的樣品,加barcode通常見(jiàn)于單細(xì)胞樣品,用來(lái)區(qū)分reads由于PCR 引起的duplication造成的誤差
那么怎么讀這個(gè)index序列呢?
首先,先用堿把上面這根測(cè)完“read 1”的序列,把上面這根DNA鏈給解鏈掉
用中性液洗掉以后呢,用read2的測(cè)序引物,那么read2的測(cè)序引物結(jié)合的位點(diǎn)正好就是在這個(gè)index序列的旁邊
接下來(lái)就是進(jìn)行第二輪測(cè)序
一般來(lái)說(shuō)是讀6-8個(gè)堿基
那么把這6-8個(gè)堿基讀下來(lái)呢,我們就可以知道這某一段具體的DNA它是來(lái)自于原始的哪個(gè)樣本
10.雙端測(cè)序
就是說(shuō),一根DNA鏈,除了從正向讀一遍,還可以從DNA的負(fù)向再讀一遍,那么這樣的話一下子就把illumina測(cè)序的有效長(zhǎng)度增加了一倍;
倒鏈的過(guò)程是這樣,先讓這個(gè)DNA先合成
合成出來(lái)的這根互補(bǔ)鏈,有了互補(bǔ)鏈以后呢
有了互補(bǔ)鏈以后呢用一個(gè)化學(xué)試劑,在原來(lái)這個(gè)鏈的根上切一下,那么原來(lái)這根模版鏈就掉了
剩下互補(bǔ)鏈,再接下來(lái)就進(jìn)行第2端的測(cè)序;那么第2端測(cè)序的原理呢和第1端的測(cè)序原理是一樣的;
原理就是加上“Read 3”這個(gè)引物,然后以此往下,一個(gè)一個(gè)堿基地往下讀
那么最重要的事情是什么呢?
一個(gè)點(diǎn),經(jīng)過(guò)幾百個(gè)循環(huán)就讀出來(lái)了幾百個(gè)堿基
但實(shí)際上呢,這個(gè)芯片上就可以有上億個(gè)點(diǎn),上億個(gè)“cluster”,也就是“簇”
上億個(gè)cluster,每一個(gè)循環(huán),它都可以讀出那么多序列,這是illumina測(cè)序非常強(qiáng)大的原因,邊合成邊測(cè)序。
有上億個(gè)鏈都在同時(shí)合成,邊合成邊測(cè)序
那么就可以得到一個(gè)很大的測(cè)序數(shù)據(jù)量