寫在前面:最近很糾結于測序數據的重復率,雖然是單細胞會難免有bias,但是fastqc和fastp兩款軟件計算出來的dup%簡直差太大了,琢磨了好久,看了fastp的文章才搞明白。
先說一下問題,我的這組數據fastqc報告的重復率特別高,但是fastp結果還好,如圖:
multiqc-fastqc
fastp report(one sample)
為什么出現這個問題,到底哪個可信?
fastqc計算時,把read1和read2分開計算,各算各的;反應的只是一端,并不能代表整個insert 片段;
fastp計算時,把r1 r2都重復(也就是start,end,lengh)都相同才叫做dup,而如果兩組paired reads,r1重復,而r2不一樣,則不算dup!這也是為什么只有一個dup%!
在NGS中,paired reads中有一端與其他一樣,另一端不同,是非常常見的,尤其是high depth sequencing.
所以,fastp計算比較合理,fastqc結果的重復率偏高。
附上fastp文章的解釋:
Chen SF et al., Bioinformatics, 34, 2018, i884–i890