Duplication rate:NGS測序重復率計算

寫在前面:最近很糾結于測序數據的重復率,雖然是單細胞會難免有bias,但是fastqc和fastp兩款軟件計算出來的dup%簡直差太大了,琢磨了好久,看了fastp的文章才搞明白。

先說一下問題,我的這組數據fastqc報告的重復率特別高,但是fastp結果還好,如圖:


multiqc-fastqc

fastp report(one sample)

為什么出現這個問題,到底哪個可信?

fastqc計算時,把read1和read2分開計算,各算各的;反應的只是一端,并不能代表整個insert 片段;
fastp計算時,把r1 r2都重復(也就是start,end,lengh)都相同才叫做dup,而如果兩組paired reads,r1重復,而r2不一樣,則不算dup!這也是為什么只有一個dup%!

在NGS中,paired reads中有一端與其他一樣,另一端不同,是非常常見的,尤其是high depth sequencing.

所以,fastp計算比較合理,fastqc結果的重復率偏高。

附上fastp文章的解釋:


Chen SF et al., Bioinformatics, 34, 2018, i884–i890
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容