參考:生物信息學(xué)100個(gè)基礎(chǔ)問題——第1~ 5題 答案公布 - 知乎 (zhihu.com)
掌握FASTQ格式
特點(diǎn)
- 第2行就是測序得到的序列信息,一般用ATCGN來表示,其中N用于熒光信號干擾無法判斷到底是哪個(gè)堿基時(shí)的代表符號;
- 第3行以“+”開始,可以儲(chǔ)存一些附加信息,但目前的測序fastq文件這一行一般是空的。
- 第4行儲(chǔ)存的是質(zhì)量信息,與第2行的堿基序列是一一對應(yīng)的,其中的每一個(gè)符號對應(yīng)的ASCII值是經(jīng)過換算的phred值,可以簡單理解為對應(yīng)位置堿基的測序質(zhì)量值,越大說明測序的質(zhì)量越好。不同的版本對應(yīng)的phred值范圍不同。
什么是phred值,怎么計(jì)算?
是評估這個(gè)bp測序質(zhì)量的值,測序儀通過判斷熒光信號的顏色來判斷堿基的種類,ATCG分別對應(yīng)紅黃藍(lán)綠,信號強(qiáng)弱不同,在這種情況下對每個(gè)結(jié)果的判斷的正確性都存在一個(gè)概率值,這個(gè)值被儲(chǔ)存為ASCII碼形式,轉(zhuǎn)化方式如下:
將該堿基判斷錯(cuò)誤概率值P取log10之后再乘以-10,得到的結(jié)果為Q。
比如,P=1%,那么對應(yīng)的Q=-10*log10(0.01)=20(這個(gè)計(jì)算公式illumina平臺(tái)使用,Solexa系列測序儀使用不同的公示來計(jì)算質(zhì)量值:Q=-10log(P/1-P))
把這個(gè)Q加上33或者64轉(zhuǎn)成一個(gè)新的數(shù)值,稱為Phred,最后把Phred對應(yīng)的ASCII字符對應(yīng)到這個(gè)堿基。
如Q=20,Phred = 20 + 33 = 53,53在ASCII碼表里對應(yīng)的ASCII符號是”5”
phred33 與 phred64是什么意思?
質(zhì)量字符的ASCII值和質(zhì)量得分的關(guān)系有如下兩種:可以粗略分為 Phred+33和Phred+64,這里的33和64就是指ASCII值轉(zhuǎn)換為Q該減去的數(shù)值。
在處理測序數(shù)據(jù)時(shí),因?yàn)橐恍┸浖?huì)根據(jù)堿基質(zhì)量得分的不同做不同的處理,常要指定正確的編碼方式,有必要對質(zhì)量字符與質(zhì)量得分的關(guān)系(Phred+33或Phred+64)作出正確的判斷。當(dāng)然,如果處理的是最近兩年產(chǎn)生的測序數(shù)據(jù),基本上都是Phred+33的,但從NCBI SRA數(shù)據(jù)庫下載的較早的數(shù)據(jù)可能不同,需要注意。
FASTA格式的構(gòu)成是怎樣的,有什么樣的規(guī)律?
fasta格式用于儲(chǔ)存序列,可以儲(chǔ)存DNA、RNA和蛋白質(zhì)序列,一般分為兩個(gè)部分,第1行是以>開頭的序列描述信息,包括數(shù)據(jù)庫中的編號,序列名稱,序列類型,剩余的為序列信息,以蛋白質(zhì)和mRNA序列文件為例:蛋白質(zhì)fasta文件核酸序列文件(mRNA序列中的U均用T來代替)
什么序列適合用FASTA保存,什么序列適合用FASTQ保存?
單純的蛋白或者核酸的序列信息一般用FASTA格式保存,而測序文件一般用包含儀器信息和測序質(zhì)量的FASTQ格式保存。
第1代測序 sanger 測序法的原理是什么?通量比較低的核心原因是什么?
sanger法測序及雙脫氧鏈終止法,它采取DNA復(fù)制原理,通過在DNA復(fù)制過程中添加雙脫氧三磷酸核苷酸(ddNTP)終止DNA鏈的延伸,在DNA鏈不同位置的延伸終止判斷該位置的堿基類型。但是凝膠電泳的時(shí)間較長,導(dǎo)致sanger法測序通量低。
作為2006年正式發(fā)布的illumina測序技術(shù),或者稱為第2代測序技術(shù)的代表性技術(shù),其最大的特點(diǎn)是什么?
核心內(nèi)容有兩個(gè),一個(gè)是橋式PCR,主要用于擴(kuò)大信號;另一個(gè)是4色熒光可逆終止反應(yīng),使illumina測序可以實(shí)現(xiàn)邊合成邊測序的技術(shù)。
Illumina測序技術(shù)為什么不能像第1代測序技術(shù)一樣測500bp以上?
主要的原因有兩個(gè),一方面測序時(shí),經(jīng)過長時(shí)間的PCR,會(huì)有不同步的情況。比如一開始1個(gè)cluster中是100個(gè)完全一樣的DNA鏈,但是經(jīng)過1輪增加堿基,其中99個(gè)都加入了1個(gè)堿基,顯示了紅色,另外1個(gè)沒有加入堿基,不顯示顏色。這時(shí)候整體為紅色,我們可以順利得到結(jié)果。隨后,在第2輪再加入堿基進(jìn)行合成的時(shí)候,之前沒有加入的加入了1個(gè)堿基顯示紅色,剩下的99個(gè)顯示綠色,這個(gè)時(shí)候就會(huì)出現(xiàn)雜信號。當(dāng)測序長度不斷延長,這個(gè)雜信號會(huì)越來越多,最后很有可能出現(xiàn)50個(gè)紅,50個(gè)綠色,這時(shí)信號不足以判斷堿基類型;第二就是測序過程中合成酶的活性越來越不穩(wěn)定,后面堿基添加出現(xiàn)問題。
什么是Illumina測序adapter?同一批上機(jī)的adapter序列一樣嗎?它的作用是什么?
adapter的中文意思為適配器或者接口,在illumina測序過程中關(guān)鍵一步是將文庫片段固定在flowcell上,然后通過橋式PCR將片段擴(kuò)增,在被打斷成300~500bp的長度的片段末端被補(bǔ)平后adaptor將被添加到片段兩端,一方面用于將片段固定在flowcell上,同時(shí)adaptor中還包含橋式PCR所需要的引物
一個(gè)完整的Illumina測序過程是那幾步?
完整的測序過程僅包含兩步,第一是橋式PCR擴(kuò)增,第二是以4色熒光可逆終止反應(yīng)為核心技術(shù)的測序;
什么是橋式PCR技術(shù)?為什么要進(jìn)行橋式PCR?
加上adaptor之后的DNA樣品與flowcell上固定的oligo(寡鏈核苷酸)匹配后就被固定在flowcell上,通過橋式PCR進(jìn)行擴(kuò)增成cluster,便于后面的熒光測序,主要步驟為:
進(jìn)行第一輪擴(kuò)增,將序列補(bǔ)成雙鏈。加入NaOH強(qiáng)堿性溶液破壞DNA的雙鏈,并洗脫。由于最開始的序列是使用化學(xué)鍵連接的,所以不會(huì)被洗。
加入緩沖溶液,這時(shí)候序列自由端的部分就會(huì)和旁邊的oligo進(jìn)行匹配
進(jìn)行一輪PCR,在PCR的過程中,序列是彎成橋狀,所以叫橋式PCR,一輪橋式PCR可以使得序列擴(kuò)增1倍。
如此循環(huán)下去,就會(huì)得到一個(gè)具有完全相同序列的cluster
我們都說,測序結(jié)果會(huì)包含index,那么index是什么?有什么作用?
一條lane能測得的數(shù)據(jù)量在30G左右,而一個(gè)樣品的測序量一般不會(huì)這么大,所以在建庫的時(shí)候?qū)γ恳环N樣品的接頭加上不同的標(biāo)簽序列,這個(gè)標(biāo)簽就叫做Index,有了index就可以同時(shí)在一個(gè)lane中測多種數(shù)據(jù)了,后期可以根據(jù)index將數(shù)據(jù)分開;
我們所說的flowcell,lane,tile都是什么意思?
- flowcell 是指Illumina測序時(shí),測序反應(yīng)發(fā)生的位置,1個(gè)flowcell含有8條lane
- lane 每一個(gè)flowcell上都有8條泳道,用于測序反應(yīng),可以添加試劑,洗脫等等
- tile 每一次測序熒光掃描的最小單位
Illumina測序結(jié)果質(zhì)量表示方法采用的是Phred33還是Phred64?
最新的測序質(zhì)量結(jié)果一般都為Phred33,但是早期的測序數(shù)據(jù)可能出現(xiàn)Phred64。
llumina目前主流的測序儀都有哪幾種型號?各自大概的通量是多少?(也就是1個(gè)run能跑出多少數(shù)據(jù))
目前主流的測序儀及其通量主要是Hiseq2500(50-1000Gb)、Hiseq3000(125-750Gb)、Hiseq4000(125-1500Gb)、Hiseq X Five(900-1800Gb)和Hiseq X Ten(900-1800Gb)
Illumina目前的測序技術(shù),最核心的就是邊合成邊測序,即我們常說的 Sequencing by synthesis (SBS),那么為什么能夠?qū)崿F(xiàn)SBS?
經(jīng)過橋式PCR之后同一段序列已經(jīng)成簇,下一段就是開始進(jìn)行測序,這一步比較簡單,就是加入primer,然后添加經(jīng)過特殊處理的ATCG四種堿基,特殊的地方有兩點(diǎn):一個(gè)是堿基部分加入了熒光基團(tuán),可以激發(fā)出不同的顏色,另一個(gè)是脫氧核糖3號位加入了疊氮基團(tuán)而不是常規(guī)的羥基,這個(gè)疊氮集團(tuán)保證了每次只能夠在序列上添加1個(gè)堿基.
這樣每1輪測序,保證只有1個(gè)堿基加入的當(dāng)前測序鏈。這時(shí)候測序儀會(huì)發(fā)出激發(fā)光,并掃描熒光。因?yàn)橐粋€(gè)cluster中所有的序列是一樣的,所以理論上,這時(shí)候cluster中發(fā)出的熒光應(yīng)該顏色一致。隨后加入試劑,將脫氧核糖3號位的—N2改變成—OH,然后切掉部分熒光基團(tuán),使其在下一輪反應(yīng)中,不再發(fā)出熒光。如此往復(fù),就可以測出序列的內(nèi)容。
Illumina測序技術(shù)為什么不能像第1代測序技術(shù)一樣測500bp以上?”,這里面主要涉及到兩種錯(cuò)誤,一種叫phasing,一種叫pre-phasing,分別是什么意思?
通俗來講phasing表示本來同步添加的堿基有一些沒加上,而pre-phasing則是加多了,都會(huì)導(dǎo)致當(dāng)前bp的熒光檢測出現(xiàn)噪音,造成phasing的主要原因是合成酶的活性降低,而pre-phasing則可能是疊氮基團(tuán)性質(zhì)不穩(wěn)定,轉(zhuǎn)化為羥基在一步檢測中添加了不止一個(gè)堿基。
adapter是什么意思?adapter與primer有什么區(qū)別?
adapter在中文是適配器或者接口的意思,在前面的內(nèi)容中已經(jīng)提到將測序序列打碎成片斷后要將末端補(bǔ)平然后添加adapter,用于與flowcell上的oligo匹配固定并為后續(xù)橋式PCR做準(zhǔn)備,而前面提到的Index與adapter之間的位置關(guān)系一般為adapter1-Index-fragment-adapter2,adapter2通過與oligo互補(bǔ)連接在flowcell上,在進(jìn)行完橋式PCR之后進(jìn)行測序時(shí),添加primer,這一段primer的序列是與Index互補(bǔ)的而非adapter1,所以最終拿到的測序結(jié)果應(yīng)該是Index+fragment+adapter2或者Index+部分fragment
比如最終的測序結(jié)果是 AATTCCGGATCGATCG...,那么adapter的序列可能出現(xiàn)在哪一端,還是兩端都有可能出現(xiàn)?為什么?
一般出現(xiàn)在3'端,在上面第1題中已經(jīng)說到,最終的測序結(jié)果應(yīng)該是Index+fragment+adapter2或者Index+部分fragment,也就是說測序的方向是從5'到3',adapter只可能出現(xiàn)在3'端。