fastq-dump是常用用來下載NCBI原始測序SRA數據的工具,但是它的參數也是比較雜亂,我根據查到的數據說下我的體會
--outdir ? ?<File_name> ? ? ? ? # 輸出文件夾名
--gzip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 使用gzip壓縮結果 (目的是減少占用硬盤大小)
--skip-technical ? ? ? ? ? ? ? ? ? ?# ?只輸出biological reads,不然會technical reads輸出,而technical reads不是我們想要的
--split-files ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?把pair-end測序分成兩個文件輸出
--fasta ? ? ?<interger> ? ? ? ? ? ?# 直接輸出fasta格式,且每行的字符數是<interger>
--readids ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?在每個reads的名字后面加上后綴 .1 和 .2,用于區分 pair-end 測序中的一對reads
--origfmt ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 顯示原始格式,便于追蹤來源,同時可以顯示長度信息
--dumpbase ? ? ? ? ? ? ? ? ? ? ? ?# 確保輸出的是A, T, C, G (對于SOLiD測序會輸出顏色,其他這個參數是默認的)
--offset ? ? ?<interger> ? ? ? ? # 對早期的數據進行轉化 (默認是33,不要亂改)
--minSpotId ? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads,一個spot可能包含多個reads (多數情況會相等)
--maxSpotId? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads,一個spot可能包含多個reads (多數情況會相等)
--minReadlen ?<interger> ? ?# 過濾短reads
--clip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?#去除標簽
--aligned ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #只輸出能align到human genome上的
--read-filter ? ? ?"pass" ? ? ? ? ? #去除全是N的reads
--stout ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #直接把結果輸出到屏幕上
別忘了加最后一個參數,就是數據名稱 SRRxxxxxxxxxx
經典的代碼是
fastq-dump ?--outdir file_name ?--gzip ?--skip-technical ? --readids ?--read-filter ?pass ?--dumpbase --split-files ?--clip ? SRR_ID