轉自:https://blog.csdn.net/niuhuihui_fei/article/details/73106998?locationNum=14&fps=1
SAM和BAM是序列比對之后常用的輸出格式
比如tophat輸出BAM格式,bowtie和bwa等都采用了SAM格式。
BAM格式其實就是SAM格式的二進制格式,占用存儲空間更小。
samtools由中國學者開發,專門用于sam/bam格式文件的各種操作。
1.bam文件讀取
samtools view xxx.bam
samtools view xxx.bam |less
2.bam和sam的區別與一致
sam是帶有比對信息的序列文件(即告訴你這個reads在染色體上的位置等),用于儲存序列數據(SAM ?format is a generic format for storing large nucleotide sequence alignments. )。
BAM is the compressed binary version of the Sequence Alignment/Map (SAM) format. 生物信息中的二進制文件主要是為了節約空間,計算機機可讀。可以用samtools工具實現sam和bam文件之間的轉化。
二者都是fastq文件經過序列比對或者mapping后輸出的格式(其儲存的信息都是一致的)
3.資料來源:
Samtools官網:http://samtools.sourceforge.net/
UCSC 上對BAM Track Format介紹:genome.ucsc.edu/goldenPath/help/bam.html
Samtools應用實例:https://wikis.utexas.edu/display/CoreNGSTools/SAM+format+and+samtools
Samtools參考文獻:The Sequence alignment/map (SAM) format and SAMtools
對SAM每一列的詳細解釋: http://genome.sph.umich.edu/wiki/SAM
SAM格式解釋及specification介紹: http://davetang.org/wiki/tiki-index.php?page=SAM
能利用或產生SAM/BAM的NGS軟件:http://samtools.sourceforge.net/swlist.shtml
4.格式(sam與bam格式是一致)
SAM格式分為header section(頭部分,注釋信息,以@開頭,可有可無)和alignment section(比對結果)兩個部分。
其中header section用不同的tag表示不同的信息,主要有@HD,說明符合標準的版本、對比序列的排列順序;@SQ,參考序列說明;@RG,比對上的序列(read)說明;@PG,使用的程序說明;@CO,任意的說明信息。Tag以鍵值對的形式存在。
alignment section 必須由11個字段組成 ,以tab分開。如果其內容沒有獲得,可以用*或者0代替。
QNAME, FLAG, RNAME, POS, MAPQ, CIGAR, MRNM, MPOS, ISIZE, SEQ, QUAL