最近在學ChIP-seq數(shù)據(jù)分析,遇到一個之前沒遇到過的問題,關于PCR Duplicates的問題,記錄一下自己搜索的答案和思考
在做轉(zhuǎn)錄組數(shù)據(jù)分析質(zhì)控那一項的過程中,利用Fastqc質(zhì)檢得到的html結果文件中會出現(xiàn)一項指標——Sequence Duplication levels。具體可以參考fastQC對RNA-seq質(zhì)控。這項指標統(tǒng)計了reads的重復水平。其中就談到,如果折線圖重復出現(xiàn)峰值,就可能是建庫過程中PCR導致的duplication過多。PCR duplication也就是多個一模一樣的reads(匹配到基因組的起始,終止位置相等,堿基序列相同,在同一條鏈上)是由于在建庫過程中,由于本身提的RNA量比較少,需要PCR擴增才能進行后續(xù)的測序。因此,duplicates的出現(xiàn)是非常正常的。但是對于不同的技術,是否需要remove duplicates在網(wǎng)上討論的非常多。下面是我的一點總結和思考:
1.實驗方法的控制
在建庫過程中,嚴格控制PCR的循環(huán)數(shù),一般控制在6以內(nèi),在保證得到足夠的測序所需的量的同時又保持文庫足夠的復雜性,將PCR duplicates rates 保持在低于4%的水平,所以獲得足夠多的DNA/RNA的量就能在很低的循環(huán)數(shù)下達到測序所需的量。本段內(nèi)容參考lCureFFl.org
2.各種技術中對 remove duplicates的要求
2.1 RNA-seq
在biostars 和 seqanswer 都有討論,總結如下:
在RNA-seq情況中,有重復片段,更有可能是一些基因有著很高的表達量。因此一般不處理,但是如果有證據(jù)證明確實是PCR duplicate而不是高表達的基因,那么就可以去除,能夠去除重復的質(zhì)控軟件可以參考這篇hope。
2.2 ChIP-seq
ChIP-seq中出現(xiàn)的duplicates,兩種情況
- Bad kind of duplicates:PCR duplicates,或者是所謂的 blacklisted region(富含高度重復序列的區(qū)域,如著絲粒,端粒等)產(chǎn)生的;
- good kind of duplicates:但測序深度加深后,Peaks 數(shù)量也會增加,如果去除,就會低估了Peaks signal。
綜上所述:要根據(jù)你的富集效率和測序深度來具體分析,但是一般情況下由于我們無法區(qū)分上述兩種情況,best practics is to remove duplicates prior to peak calling。因為前提假設是這樣的:在破碎過程中,DNA片段是隨機打碎的,因此同一個位置被同樣的打碎的情況概率非常小,那么出現(xiàn)的一模一祥的reads一般認為就是PCR duplicates。
2.3.DNA-seq
全基因組重測序(WGS)中,如果要檢測SNV(single nucleotide variant),如果PCR duplicates很多,就會影響檢測的準確度。具體參考stackchange 和 知乎中的回答。
網(wǎng)上還有其他人做的分析與總結,也是不錯的,可以參考sam'note