SRA、SAM以及Fastq文件高速下載方法

這是個簡短的教程,目的是介紹幾種比較方便快捷的下載SRA、SAM及Fastq文件的方法。

NCBI-SRA和EBI-ENA數據庫

SRA數據庫: Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information),它是一個保存高通量測序原始數據以及比對信息和元數據 (metadata) 的數據庫,所有已發表的文獻中高通量測序數據基本都上傳至此,方便其他研究者下載及再研究。其中的數據則是通過壓縮后以.sra文件格式來保存的。

ENA數據庫:European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute),功能同SRA,并且對數據做了注釋,界面更友好,當然對于我們來說,最誘人的當屬可直接下載fastq (.gz)文件這一項了。

sra文件下載方式

多數情況下,我們下載sra文件是為了獲取相應的fastq或者sam文件,這樣可以和自己的pipeline對接上,直接分析,所以

1. 找地方:用手頭上的SRR (SRA Run)序列號去ENA搜索,如果有,就在這兒下;如果沒有,就去SRA數據庫下載

2. 選方法

首選Aspera Connect軟件,這是IBM旗下的商業高速文件傳輸軟件,與NCBI和EBI有協作合同,我們可以免費使用它下載高通量測序文件,體驗飛一般的感覺,速度可飚至300-500M/s。下載完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。

其次,如果上述方法不奏效,優先使用sratoolkit中的prefetch命令

最后,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩定,推薦大家嘗試Biostar Handbook中的wonderdump腳本

警告:不要用wget或curl去下載sra文件,這會導致下載的文件不完整!

Aspera Connect命令行工具ascp的安裝

首先,進入Aspera Connect的下載頁面,選擇linux版本,復制下載地址

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gztar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz# 安裝bash aspera-connect-3.7.4.147727-linux-64.sh# 查看是否有.aspera文件夾cd # 去根目錄ls -a # 如果看到.aspera文件夾,代表安裝成功# 永久添加環境變量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc# 查看幫助文檔ascp --help

至此,安裝完成,下面介紹如何利用 ascp在SRA和ENA中下載數據

ascp的用法:ascp [參數] 目標文件 目標地址

在線文檔(https://download.asperasoft.com/download/docs/ascp/2.6/html/index.html?https://download.asperasoft.com/download/docs/ascp/2.6/html/fasp/ascp.html)

先了解幾個 ascp命令的常用參數

-v verbose mode 嘮叨模式,能讓你實時知道程序在干啥,方便查錯。有些作者的程序缺乏人性化,運行之后,只見光標閃,壓根不知道運行到哪了

-T 取消加密,否則有時候數據下載不了

-i 提供私鑰文件的地址,我也不知道干嘛的,反正不能少,地址一般是~/.aspera/connect/etc中的asperawebiddsa.openssh文件

-l 設置最大傳輸速度,一般200m到500m,如果不設置,反而速度會比較低,可能有個較低的默認值

-k 斷點續傳,一般設置為值1

-Q 不懂,一般加上它

-P 提供SSH port,一般是33001,反正我不懂

ASCP使用案例

SRA數據庫下載:首先記住,數據的存放地址是 ftp-private.ncbi.nlm.nih.gov,SRA在Aspera的用戶名是 anonftp,下載舉例:

  • 如果我想下載 SRR949627.sra文件,首先我需要找到地址,去ncbi ftp-private或者ncbi faspftp,一層層尋找,直至找到,然后記下鏈接地址,就可以開始下載了:

ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/

注意:anonftp@ftp-private.ncbi.nlm.nih.gov后面是:號,不是路徑/!

一般來說,NCBI的sra文件前面的地址都是一樣的/sra/sra-instant/reads/ByRun/sra/SRR/...,那么寫腳本批量下載也就不難了!

ENA數據庫下載:這里和上面不同,數據的存放地址是 fasp.sra.ebi.ac.uk,ENA在Aspera的用戶名是 era-fasp,下載舉例:

  • 同樣,我還是下載 SRR949627,方便的是ENA中可以直接下載 fastq.gz文件,不用再從sra文件慢吞吞的轉換了,那么地址呢,可以去ENA搜索,再復制下fastq.gz文件的地址,或者可以去ENA的ftp地址 ftp.sra.ebi.ac.uk搜索,注意,是ftp,不是fasp!記下鏈接地址,就可以下載了:

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/

注意:era-fasp@fasp.sra.ebi.ac.uk后面是:號,不是路徑/!

一般來說,EBI的sra文件前面的地址也都是一樣的vol1/fastq/...,那么寫腳本批量下載也就不難了!

參考資料

使用速鉑Aspera下載NGS數據

Aspera助力快速下載NCBI基因組與SRA原始數據

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容