前言
? ? 生物信息分析總是避不開從NCBI上下載數據,但是很多時候通過瀏覽器登錄NCBI都費勁,更別說下載大量的數據了,所以很必要了解一下NCBI數據下載工具aspera,該軟件是由IBM開發,能夠最大程度利用寬帶速度,小編下載NR和NT數據庫的時候速度能飚到400Mb/s,下載基因組的時候能飚到20Mb/s。
下載安裝
? ? 下載鏈接:Aspera - Connect | IBM然后選擇?請參閱所有安裝程序選擇自己需要的版本,小編這里選擇aspera-connect-3.7.4.147727-linux版本為例。
下載:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解壓:tar -xzvf?aspera-connect-3.7.4.147727-linux-64.tar.gz
安裝:sh?aspera-connect-3.7.4.147727-linux-64.sh? #此時安裝已經完成,去到用戶的home目錄里能看到一個.aspera目錄
秘鑰復制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .;cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./# 切換到home路徑,將兩個重要的配置文件復制到home路徑
添加環境變量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc
已可以使用該下載工具下載數據
NCBI數據下載示例
? ? 小編想從NCBI上下載擬南芥基因組和NR數據庫,于是從NCBI上扒拉得到下載鏈接https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz? 和https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz?
????只要運行一下下邊命令即可下載得到基因組和NR數據庫:
基因組:ascp?-i?~/asperaweb_id_dsa.openssh??-QTr?-l200m??anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz ./
NR數據庫:ascp?-i?~/asperaweb_id_dsa.openssh??-QTr?-l500m??anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz ./
? ? 其他的下載地址可以參考該下載命令,只要稍加修改即可,參數-i表示限制的最大下載速度,一般200m到500m,其他參數小編了解的不是很清楚,感興趣可以去官網上翻閱。
aspera的其他應用
? ? 對于生信分析來說,aspera還可以下載EBI數據,還有Windows版本的該軟件,大家可以去官網研究,最后小編在這里提醒一下,因為該軟件能最大利用寬帶,所以下載時最好進行限速,以免影響別人的工作。