biostar 學習筆記(4-1)--- 認識數據和數據的獲取
一 常用數據庫
- NCBI
- ensembl
- UCSC
用的最頻繁的還是NCBI,下面以NCBI為例,整理數據類型和數據獲取。
二 數據類型
GenBank
NCBI中所有被注釋和鑒定的DNA序列信息。
SRA
NCBI中高通量測序文件的壓縮格式。
fasta
第一行以”>“開頭,為序列信息。
第二行開始為序列。
foo ATGCC bar other optional text could go here CCGTA
fastq
fastq為高通量測序文件,其壓縮格式為sra。主要包括四行:第一行為序列id信息,第二行為序列,第三行信息為+,可以添加其他信息,第四行測序堿基質量信息。
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65`
三 數據的獲取
如果我們需要的信息比較少,則可進行ncbi網站直接搜索下載即可。如需要批量下載,可以安裝Entrez Direct。這個軟件是perl依賴的,所以安裝之后可能會缺失perl模塊而報錯,缺什么就裝上即可。安裝代碼如下:
wget ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip
unzip edirect.zip
cd edirect
ls
./setup.sh
echo "export PATH=\$PATH:/home/wxw/biosoft/edirect/edirect" >> $HOME/.bashrc
source ~/.bashrc
獲取核酸序列
esearch -db nucleotide -query PRJNA257197 | efetch -format=fasta > genomes.fa獲取蛋白序列
格式也可以保存為gb,也就是genbank的格式。
esearch -db protein -query PRJNA257197 | efetch -format=fasta > proteins.fa
當然,也可以批量獲取。
efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta > multi.fa
sra的獲取,需要先安裝sratoolkit。
cd ~/biosoft
mkdir sratoolkit && cd sratoolkit
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
#也可以下載對應的其他版本
tar -xzvf sratoolkit.2.8.2-centos_linux64.tar.gz && cd sratoolkit.2.8.2-centos_linux64/bin/
pwd
echo "export PATH=~/biosoft/sratoolkit/sratoolkit.2.8.2-centos_linux64/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
使用prefetch下載對于id的sra文件即可
prefetch SRR1553610
當然,也可以批量獲取。
echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids