【生信基礎】根據SRA號批量下載fastq文件的一種實現方法

一、思路分析:

百度一下,看看有沒有沒有現成的批量下載方法

二、查到的一種比較簡介的可以直接下載fastq文件的方法

echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
# 利用sed和bash
cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/'|bash

三、根據項目編號下載整個項目的fastq文件

  • 到NCBI下載runinfo信息(更簡單的方法是使用通過EDirect獲取runinfo,但是發現這個安裝總是不成功,所以用笨方法)
  • 導出后的runinfo信息,放到服務器中, 獲取所有樣本的SRR號

運行:

nohup cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/'|bash 2>&1 >log &

其實還能用多線程

運行:

time for i in SRR*; do pfastq-dump --split-3 --threads 12 -O pfastq_dump_result -s $i ; done

參考文章

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容