SRA下載工具fastq-dump參數理解

fastq-dump是常用用來下載NCBI原始測序SRA數據的工具,但是它的參數也是比較雜亂,我根據查到的數據說下我的體會

--outdir ? ?<File_name> ? ? ? ? # 輸出文件夾名

--gzip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 使用gzip壓縮結果 (目的是減少占用硬盤大小)

--skip-technical ? ? ? ? ? ? ? ? ? ?# ?只輸出biological reads,不然會technical reads輸出,而technical reads不是我們想要的

--split-files ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?把pair-end測序分成兩個文件輸出

--fasta ? ? ?<interger> ? ? ? ? ? ?# 直接輸出fasta格式,且每行的字符數是<interger>

--readids ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# ?在每個reads的名字后面加上后綴 .1 和 .2,用于區分 pair-end 測序中的一對reads

--origfmt ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 顯示原始格式,便于追蹤來源,同時可以顯示長度信息

--dumpbase ? ? ? ? ? ? ? ? ? ? ? ?# 確保輸出的是A, T, C, G (對于SOLiD測序會輸出顏色,其他這個參數是默認的)

--offset ? ? ?<interger> ? ? ? ? # 對早期的數據進行轉化 (默認是33,不要亂改)

--minSpotId ? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads,一個spot可能包含多個reads (多數情況會相等)

--maxSpotId? ? <interger> ? ? # 輸出從minSpotId到maxSpotId的reads,一個spot可能包含多個reads (多數情況會相等)

--minReadlen ?<interger> ? ?# 過濾短reads

--clip ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?#去除標簽

--aligned ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #只輸出能align到human genome上的

--read-filter ? ? ?"pass" ? ? ? ? ? #去除全是N的reads

--stout ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #直接把結果輸出到屏幕上

別忘了加最后一個參數,就是數據名稱 SRRxxxxxxxxxx

經典的代碼是

fastq-dump ?--outdir file_name ?--gzip ?--skip-technical ? --readids ?--read-filter ?pass ?--dumpbase --split-files ?--clip ? SRR_ID

參考自 ? ? ?https://edwards.sdsu.edu/research/fastq-dump

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容