短序列比對軟件參數和格式解讀Bowtie2/SAM

之前一貫使用的是BWA,根據文獻描述,BWA速度比較慢但是比較精確,Bowtie比較快消耗的內存也比較小。目前用自己的8G筆記本,使用Bowtie比對二代測序reads到人類基因組上,的確是可以跑得開的。


首先,先區別一下這些大名鼎鼎的比對軟件。

TopHat: a fast splice junction mapper for RNA-seq reads

Cufflinks: a tool for transcriptome assembly and isoform quantitiation from RNA-seq reads

Crossbow: a cloud-enabled software tool for analyzing resequencing data

Myrna: a cloud-enabled software tool for aligning RNA-seq reads and measuring differential gene expression

Bowtie2 參數:

參數如下:

第一步,是將你的reference進行index

Bowtie2結果文件 SAM格式解析:

SAM被tab鍵分割成12個列,tab分割有利于用shell腳本直接處理。當然SAMtools也可以承擔一些工作。

1??? 比對到參考基因組上的reads的ID

2??? 進行標注的Flag值:1.這個reads是paired reads里面的一個; 2.這個比對是paired-end比對中的一端;4.這個read,沒有任何比對上的結果;8.這個read是pair里面的一個,并且沒有比對上;16.比對到了反義鏈上;32.另外一條read比對到了反義鏈;64.它是pair里面的第一條;128.它是pair里面的第二條。

把這些條件進行加和:比如83=64+16+2+1,代表paired-end序列的第一條read,并且比對到了反義鏈上。

3??? 比對到基因組的位置的染色體或者scaffold

4??? 以正義鏈來算,比對上的最左邊的那個位置的bp數

5??? 比對的質量值

6? ? CIGAR string representation of alignment???應該是代表多少個Match多少個Mismatch

7??? 參考基因組被比上的序列,如果完全相同就是=,如果沒比上就是*

8???? 這個read的另一個pair的read比對上的最左邊的第一個氨基酸

9???? 它的pair read發生的位置在上下游的多少bp數,正為下游,負數為上游。

10? ? read sequence(reverse-complemented if aligned to the reverse strand)

11??? ASCII碼標注的質量

12??? 附加信息

AS:i:<N> 比對分數

XS:i:<N>在出現比對到多個位置的情況下,最佳比對的分數

用于Uniq過濾的參數!

YS:i:<N> 那個pair mate的比對分數

XN:i:<N> 多少個可疑的base

XM:i:<N> Mismatch的個數

XO:i:<N> gap open的個數? XE 是gap extension的個數

YF:Z:<S> read被過濾掉的原因。。。

NM:i:<N> The edit distance; that is, the minimal number of one-nucleotide edits

(substitutions, insertions and deletions) needed to transform the read

string into the reference string.? Only present if SAM record is for an

aligned read.

YT:Z:<S> Value of `UU` indicates the read was not part of a pair.? Value of `CP`

indicates the read was part of a pair and the pair aligned concordantly.

Value of `DP` indicates the read was part of a pair and the pair aligned

discordantly.? Value of `UP` indicates the read was part of a pair but the

pair failed to aligned either concordantly or discordantly.

MD : Z : <S>

A string representation of the mismatched reference bases in the alignment.

See [SAM] format specification for details.? Only present if SAM record is

for an aligned read.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz閱讀 5,770評論 0 5
  • 一季度評星被打回來了,沈yan妍操作的,坑爹
    mimikatz閱讀 211評論 0 0