之前一貫使用的是BWA,根據文獻描述,BWA速度比較慢但是比較精確,Bowtie比較快消耗的內存也比較小。目前用自己的8G筆記本,使用Bowtie比對二代測序reads到人類基因組上,的確是可以跑得開的。
首先,先區別一下這些大名鼎鼎的比對軟件。
TopHat: a fast splice junction mapper for RNA-seq reads
Cufflinks: a tool for transcriptome assembly and isoform quantitiation from RNA-seq reads
Crossbow: a cloud-enabled software tool for analyzing resequencing data
Myrna: a cloud-enabled software tool for aligning RNA-seq reads and measuring differential gene expression
Bowtie2 參數:
參數如下:
第一步,是將你的reference進行index
Bowtie2結果文件 SAM格式解析:
SAM被tab鍵分割成12個列,tab分割有利于用shell腳本直接處理。當然SAMtools也可以承擔一些工作。
1??? 比對到參考基因組上的reads的ID
2??? 進行標注的Flag值:1.這個reads是paired reads里面的一個; 2.這個比對是paired-end比對中的一端;4.這個read,沒有任何比對上的結果;8.這個read是pair里面的一個,并且沒有比對上;16.比對到了反義鏈上;32.另外一條read比對到了反義鏈;64.它是pair里面的第一條;128.它是pair里面的第二條。
把這些條件進行加和:比如83=64+16+2+1,代表paired-end序列的第一條read,并且比對到了反義鏈上。
3??? 比對到基因組的位置的染色體或者scaffold
4??? 以正義鏈來算,比對上的最左邊的那個位置的bp數
5??? 比對的質量值
6? ? CIGAR string representation of alignment???應該是代表多少個Match多少個Mismatch
7??? 參考基因組被比上的序列,如果完全相同就是=,如果沒比上就是*
8???? 這個read的另一個pair的read比對上的最左邊的第一個氨基酸
9???? 它的pair read發生的位置在上下游的多少bp數,正為下游,負數為上游。
10? ? read sequence(reverse-complemented if aligned to the reverse strand)
11??? ASCII碼標注的質量
12??? 附加信息
AS:i:<N> 比對分數
XS:i:<N>在出現比對到多個位置的情況下,最佳比對的分數
用于Uniq過濾的參數!
YS:i:<N> 那個pair mate的比對分數
XN:i:<N> 多少個可疑的base
XM:i:<N> Mismatch的個數
XO:i:<N> gap open的個數? XE 是gap extension的個數
YF:Z:<S> read被過濾掉的原因。。。
NM:i:<N> The edit distance; that is, the minimal number of one-nucleotide edits
(substitutions, insertions and deletions) needed to transform the read
string into the reference string.? Only present if SAM record is for an
aligned read.
YT:Z:<S> Value of `UU` indicates the read was not part of a pair.? Value of `CP`
indicates the read was part of a pair and the pair aligned concordantly.
Value of `DP` indicates the read was part of a pair and the pair aligned
discordantly.? Value of `UP` indicates the read was part of a pair but the
pair failed to aligned either concordantly or discordantly.
MD : Z : <S>
A string representation of the mismatched reference bases in the alignment.
See [SAM] format specification for details.? Only present if SAM record is
for an aligned read.