這是個簡短的教程,目的是介紹幾種比較方便快捷的下載SRA、SAM及Fastq文件的方法。
NCBI-SRA和EBI-ENA數據庫
SRA數據庫: Sequence Read Archive:隸屬NCBI (National Center for Biotechnology Information),它是一個保存高通量測序原始數據以及比對信息和元數據 (metadata) 的數據庫,所有已發表的文獻中高通量測序數據基本都上傳至此,方便其他研究者下載及再研究。其中的數據則是通過壓縮后以.sra文件格式來保存的。
ENA數據庫:European Nucleotide Archive:隸屬EBI (European Bioinformatics Institute),功能同SRA,并且對數據做了注釋,界面更友好,當然對于我們來說,最誘人的當屬可直接下載fastq (.gz)文件這一項了。
sra文件下載方式
多數情況下,我們下載sra文件是為了獲取相應的fastq或者sam文件,這樣可以和自己的pipeline對接上,直接分析,所以
1. 找地方:用手頭上的SRR (SRA Run)序列號去ENA搜索,如果有,就在這兒下;如果沒有,就去SRA數據庫下載
2. 選方法:
首選Aspera Connect軟件,這是IBM旗下的商業高速文件傳輸軟件,與NCBI和EBI有協作合同,我們可以免費使用它下載高通量測序文件,體驗飛一般的感覺,速度可飚至300-500M/s。下載完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。
其次,如果上述方法不奏效,優先使用sratoolkit中的prefetch命令。
最后,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩定,推薦大家嘗試Biostar Handbook中的wonderdump腳本。
警告:不要用wget或curl去下載sra文件,這會導致下載的文件不完整!
Aspera Connect命令行工具ascp的安裝
首先,進入Aspera Connect的下載頁面,選擇linux版本,復制下載地址
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gztar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz# 安裝bash aspera-connect-3.7.4.147727-linux-64.sh# 查看是否有.aspera文件夾cd # 去根目錄ls -a # 如果看到.aspera文件夾,代表安裝成功# 永久添加環境變量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc# 查看幫助文檔ascp --help
至此,安裝完成,下面介紹如何利用 ascp
在SRA和ENA中下載數據
ascp
的用法:ascp [參數] 目標文件 目標地址
先了解幾個 ascp
命令的常用參數
-v
verbose mode 嘮叨模式,能讓你實時知道程序在干啥,方便查錯。有些作者的程序缺乏人性化,運行之后,只見光標閃,壓根不知道運行到哪了
-T
取消加密,否則有時候數據下載不了
-i
提供私鑰文件的地址,我也不知道干嘛的,反正不能少,地址一般是~/.aspera/connect/etc中的asperawebiddsa.openssh文件
-l
設置最大傳輸速度,一般200m到500m,如果不設置,反而速度會比較低,可能有個較低的默認值
-k
斷點續傳,一般設置為值1
-Q
不懂,一般加上它
-P
提供SSH port,一般是33001,反正我不懂
ASCP使用案例
SRA數據庫下載:首先記住,數據的存放地址是 ftp-private.ncbi.nlm.nih.gov
,SRA在Aspera的用戶名是 anonftp
,下載舉例:
- 如果我想下載
SRR949627.sra
文件,首先我需要找到地址,去ncbi ftp-private或者ncbi faspftp,一層層尋找,直至找到,然后記下鏈接地址,就可以開始下載了:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
注意:
anonftp@ftp-private.ncbi.nlm.nih.gov
后面是:號,不是路徑/!一般來說,NCBI的sra文件前面的地址都是一樣的
/sra/sra-instant/reads/ByRun/sra/SRR/...
,那么寫腳本批量下載也就不難了!
ENA數據庫下載:這里和上面不同,數據的存放地址是 fasp.sra.ebi.ac.uk
,ENA在Aspera的用戶名是 era-fasp
,下載舉例:
- 同樣,我還是下載
SRR949627
,方便的是ENA中可以直接下載fastq.gz
文件,不用再從sra文件慢吞吞的轉換了,那么地址呢,可以去ENA搜索,再復制下fastq.gz文件的地址,或者可以去ENA的ftp地址ftp.sra.ebi.ac.uk
搜索,注意,是ftp,不是fasp!記下鏈接地址,就可以下載了:
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/
注意:
era-fasp@fasp.sra.ebi.ac.uk
后面是:號,不是路徑/!一般來說,EBI的sra文件前面的地址也都是一樣的
vol1/fastq/...
,那么寫腳本批量下載也就不難了!
參考資料
使用速鉑Aspera下載NGS數據