測序數據的獲取

一、數據庫簡單介紹

1、SRA數據庫:

NCBI的SRA數據庫是美國國立衛生研究院(NIH)存儲高通量測序數據的主要數據庫,也是高通量測序數據存儲的代表。SRA(Sequence ReadArchive)數據庫是用于存儲二代測序的原始數據,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數據外,SRA現在也存在raw reads在參考基因的比對信息。 根據SRA數據產生的特點,將SRA數據分為四類:① Studies-- 研究課題;②?Experiments-- 實驗設計;③?Runs-- 測序結果集;④?Samples-- 樣品信息。SRA中數據結構的層次關系為:Studies->Experiments->Samples->Runs.? Studies是就實驗目標而言的,一個study 可能包含多個Experiment。Experiments包含了Sample、DNA source、測序平臺、數據處理等信息。一個Experiment可能包含一個或多個runs。Runs 表示測序儀運行所產生的reads。SRA數據庫用不同的前綴加以區分:① ERP或SRP表示Studies;②SRS 表示 Samples;③SRX 表示 Experiments;④SRR 表示 Runs; SRA 短序列數據庫:由 NCBI 負責維護;ENA 歐洲核酸數據庫:由 EBI 負 責維護。

SRA數據庫FTP服務器:?ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

(參考 NCBI SRA數據庫使用詳解

2、dbSNP數據庫:

單核苷酸多態性數據庫dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI與人類基因組研究所(National Human Genome Research Institute)合作建立的,收錄了SNP、短插入缺失多態性、微衛星標記和短重復序列等數據,以及其來源、檢測和驗證方法、基因型信息、上下游序、人群頻率等信息。dbSNP接受明顯中性的多態性,對應于已知表型的多態性和無變異的區域。它于1998年9月創建,用于補充NCBI收集的公眾可獲得的核酸和蛋白質序列GenBank。從構建131(2010年2月開始)開始,dbSNP已經收集了超過1.84億份提交文件,代表了55種生物的超過6400萬種不同變種,包括智人,小家鼠,水稻和許多其他物種。 NCBI將在2017年逐步停止對dbSNP和dbVar中的所有非人類生物的支持。

網址:https://www.ncbi.nlm.nih.gov/SNP/

dbSNP數據下載地址:ftp://ftp.ncbi.nih.gov/snp/

(參考dbSNP數據庫?以及 生信人必學ftp站點之 dbsnp

3、1000genomes數據庫:

千人基因組計劃的數據庫,如何通過官網做的data portal來下載數據可參考:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

在千人基因組計劃的ftp主站點里面可以下載所有數據:

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

(參考:生信人必學ftp站點之1000genomes

更多的數據庫可見:生物信息學相關網站

二、數據下載軟件

以SRA數據庫數據為例

1、數據下載軟件Aspera?:

Aspera 軟件以最快速度傳輸全球數據,不 受文件大小、傳輸距離或網絡條件的影響。 具有 fasp? 傳輸專利技術,是一項突破性 傳輸協議,充分利用現有的 WAN 基礎設 施和通用硬件,傳輸速度比 FTP 和 HTTP 快達數百倍。 支持在云平臺上或公共、私人或混合型云 平臺上進行部署,涵蓋廣泛的服務器、桌 面和移動操作系統,具有端對端安全性、 100% 可靠性以及卓越的帶寬控制能力。

Aspera connect在Ubuntu的下載和安裝 :

wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz

tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz

sh aspera-connect-3.6.2.117442-linux-64.sh

echo "alias ascp=/home/noodles/.aspera/connect/bin/ascp" >> ~/.bashrc

source ~/.bashrc

ascp -h


Aspera用法

~/.bashrc:?該文件包含專用于你的bash shell的bash信息,當登錄時以及每次打開新的shell時,該該文件被讀取。將 ascp 添加至此處。參考:.bash_profile和.bashrc的什么區別及啟動過程?。每次修改.bashrc后,使用source ~/.bashrc 使修改立即生效。

根據數據的accession no. 逐步定位到sra文件,并得到ftp下載地址:

如SRR6208854的ftp下載地址為:ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

則將其改為:

anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

然后就可以在Ubuntu上使用aspera下載SRA文件,首先我們了解以下部分aspera參數:

USAGE:ascp [參數] 目標文件 目的地址

-T 不進行加密。若不添加此參數,可能會下載不了。

-i string 輸入私鑰,安裝 aspera 后有在目錄 ~/.aspera/connect/etc/ 下有幾個私鑰, 使用 linux 服務器的時候一般使用 asperaweb_id_dsa.openssh 文件作為私鑰。

-l string 設置最大傳輸速度,比如設置為 200M 則表示最大傳輸速度為 200m/s。若不設置該參數,則一般可達到10m/s的速度,而設置了,傳輸速度可以更高。

-k 1 支持斷點續傳

--host=string ftp的host名,NCBI的為ftp-private.ncbi.nlm.nih.gov;EBI的為fasp.sra.ebi.ac.uk。

--user=string 用戶名,NCBI的為anonftp,EBI的為era-fasp。

--mode=string 選擇模式,上傳為 send,下載為 recv。

--file-list 批量下載SRA文件的路徑

因此可通過下述命令來下載SRR6208854.sra文件:

ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

(若ascp未添加環境變量,則使用 ~/.aspera/connect/bin/ascp )

我們可以發現,NCBI-SRA數據庫的sra文件前面的地址都是一樣的/sra/sra-instant/reads/ByRun/sra/SRR/...,可以根據需要下載的sra文件來編寫腳本進行批量下載sra文件,也可過把sra文件的id寫到一個文檔,使用ascp批量下載文檔中所有的sra文件,舉例如下:

首先vi創建一個文本文件,如SRR_Download_List,內容為:

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232298/SRR6232298.sra

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232299/SRR6232299.sra

然后運行:

~/.aspera/connect/bin/ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./

即可下載。(上述末尾的./表示下載到當前目錄)

參考:從NCBI-SRA和EBI-ENA數據庫下載數據

2、SRA數據下載工具??SRA toolkit

SRA toolkit由NCBI開發,用于下載處理SRA文件,含有各種數據格式轉換的工具包,其中fastq-dump和prefetch經常使用:

fastq-dump:用于將SRA數據fastq格式

prefetch:允許使用命令行來下載SRA,dbGap和ADSP數據

SRA的安裝方法(參考:SRAtoolkit安裝步驟):

Step 1:下載SRAtoolkit軟件包這里用wget的-P參數,設置下載文件保存的路徑是~/Biosofts/sratoolkit

wget -P ~/Biosofts/sratoolkit https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

Step 2:解壓壓縮包用tar命令的-C參數,設置解壓文件保存路徑在~/Biosofts/sratoolkit

tar zvxf ~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/sratoolkit

Step 3:測試安裝是否成功

~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h

Step 4:將sratoolkit安裝文件路徑加入環境變量

echo 'export PATH=~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

Step 5:再次測試sratoolkit安裝情況

fastq-dump

prefetch

當SRAtoolkit下載安裝好后,即可使用prefetch來下載sra文件,以及使用fastq-dump將SRA數據fastq格式:

prefetch accession no. 即可下載,如下載 SRR6232298,則:

prefetch?SRR6232298

軟件自動建立~/ncbi/public/sra文件夾,sra文件

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。