Hello 大家好! 我們又見面了!
今天我們接著昨天的內容,為大家介紹一下比對的質量MAPQ。
在我們BBQ100的第1問中,我們就問了大家一個問題FASTQ格式中的第4行記錄的是什么內容。
我們也給大家進行了解答,FASTQ格式的第4行記錄的是每一個堿基的測序質量信息,也叫phred值。1個FASTQ記錄的例子如下:
@HWI-ST1350:124:C1C2TACXX:3:1101:1223:2042
CTTTTCGAGTCAGACACATGACAGCCGGCAGCAACTGGAATGGCAGCAATT
+
BBCFFFFFGHHHHJJIJJIIJJJJIJJJGIJIIJJIJIGIIJJGIIIJIIG
如果這條序列(readA)最終可以比對到:
1號染色體的100000這個位置,但其中包含了1個mismatch(錯配);
或者是2號染色體的200000這個位置,但是有2個錯配。
那readA到底是比對到第1個位置還是第2個位置呢?
這個時候就需要1個度量值來幫我們做判斷,選擇1個最好的作為最終的比對結果(當然研究一些比較特殊問題的時候需要把相似的比對結果都輸出出來),這個度量值就是MAPQ。
可以理解MAPQ為罰分以后的分數。
那么MAPQ是什么意思呢?
根據SAM文件的官方定義:
MAPQ: Mapping Quality. It equals -10 log10 Pr{mapping position is wrong}, rounded to the nearest integer. A value 255 indicates that the mapping quality is not available.
簡單翻譯一下:MAPQ是mapping的質量值,計算方法與FASTQ的質量值類似,
MAPQ=-10 * log10{mapping出錯的概率} # 越大正確幾率越大
那么怎么計算MAPQ呢?
而我的回答是:
根據mapping的情況,然后結合堿基的測序質量值進行評估。
核心思想是,
低質量的堿基如果進行了mismatch(錯配),那么很有可能是測序錯誤導致的,不應該罰太多分;
低質量的堿基如果與參考基因組完美match(匹配),那么也很有可能是測序錯誤導致的,不應該加太多分。
以我們下面的圖1內容為例,第5列是MAPQ值,一般在后續分析的時候,我們都需要把MAPQ質量過低的reads去掉,一般的cutoff是MAPQ≥10,嚴格一些的比如去尋找somatic mutation的時候需要MAPQ≥30。
好了,說了這么多,我們今天的思考如下:
1. 如果mapping的時候輸入的是FASTA文件,那么MAPQ還有意義嗎?為什么?
沒有意義。FASTA不包含測序質量信息,因此最后的MAPQ無法計算,也沒有意義,常?用255代替。
2. 不同的比對軟件比如bwa與bowtie2,計算出來的MAPQ意義相同嗎?為什么?
BWA與Bowtie2的核心算法相同,但是比對策略和最終判斷輸出結果的評價體系不同。
MAPQ雖然代表的均是mapping的質量值,但是不同算法軟件之間的MAPQ不能同時比較。
簡單來說,我們不能認為BWA中MAPQ=42就要好于Bowtie2的MAPQ=40,反之亦然!