關于NGS數(shù)據(jù)處理中的PCR Duplicate

最近在學ChIP-seq數(shù)據(jù)分析,遇到一個之前沒遇到過的問題,關于PCR Duplicates的問題,記錄一下自己搜索的答案和思考

在做轉(zhuǎn)錄組數(shù)據(jù)分析質(zhì)控那一項的過程中,利用Fastqc質(zhì)檢得到的html結果文件中會出現(xiàn)一項指標——Sequence Duplication levels。具體可以參考fastQC對RNA-seq質(zhì)控。這項指標統(tǒng)計了reads的重復水平。其中就談到,如果折線圖重復出現(xiàn)峰值,就可能是建庫過程中PCR導致的duplication過多。PCR duplication也就是多個一模一樣的reads(匹配到基因組的起始,終止位置相等,堿基序列相同,在同一條鏈上)是由于在建庫過程中,由于本身提的RNA量比較少,需要PCR擴增才能進行后續(xù)的測序。因此,duplicates的出現(xiàn)是非常正常的。但是對于不同的技術,是否需要remove duplicates在網(wǎng)上討論的非常多。下面是我的一點總結和思考:

1.實驗方法的控制

在建庫過程中,嚴格控制PCR的循環(huán)數(shù),一般控制在6以內(nèi),在保證得到足夠的測序所需的量的同時又保持文庫足夠的復雜性,將PCR duplicates rates 保持在低于4%的水平,所以獲得足夠多的DNA/RNA的量就能在很低的循環(huán)數(shù)下達到測序所需的量。本段內(nèi)容參考lCureFFl.org

2.各種技術中對 remove duplicates的要求

2.1 RNA-seq

biostarsseqanswer 都有討論,總結如下:
在RNA-seq情況中,有重復片段,更有可能是一些基因有著很高的表達量。因此一般不處理,但是如果有證據(jù)證明確實是PCR duplicate而不是高表達的基因,那么就可以去除,能夠去除重復的質(zhì)控軟件可以參考這篇hope

2.2 ChIP-seq

ChIP-seq中出現(xiàn)的duplicates,兩種情況

  • Bad kind of duplicates:PCR duplicates,或者是所謂的 blacklisted region(富含高度重復序列的區(qū)域,如著絲粒,端粒等)產(chǎn)生的;
  • good kind of duplicates:但測序深度加深后,Peaks 數(shù)量也會增加,如果去除,就會低估了Peaks signal。
    綜上所述:要根據(jù)你的富集效率和測序深度來具體分析,但是一般情況下由于我們無法區(qū)分上述兩種情況,best practics is to remove duplicates prior to peak calling。因為前提假設是這樣的:在破碎過程中,DNA片段是隨機打碎的,因此同一個位置被同樣的打碎的情況概率非常小,那么出現(xiàn)的一模一祥的reads一般認為就是PCR duplicates。

2.3.DNA-seq

全基因組重測序(WGS)中,如果要檢測SNV(single nucleotide variant),如果PCR duplicates很多,就會影響檢測的準確度。具體參考stackchange知乎中的回答。

網(wǎng)上還有其他人做的分析與總結,也是不錯的,可以參考sam'note

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。