常見的數(shù)據(jù)格式
genbank
genbank是美國國立衛(wèi)生研究院維護(hù)的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個(gè)記錄代表了一個(gè)單獨(dú)的、連續(xù)、帶有注釋的DNA或RNA片段。
identifier | 含義 |
---|---|
LOCUS | 序列名稱 |
DEFINITION | 序列簡(jiǎn)要說明 |
ACCESSION | 序列編號(hào) |
VERSION | 序列版本號(hào) |
KEYWORDS | 與序列相關(guān)的關(guān)鍵字 |
SOURCE | 序列來源的物種名 |
ORGANISM | 序列來源的物種學(xué)名和分類學(xué)位置 |
REFERENCE | 相關(guān)文獻(xiàn)編號(hào),或遞交序列的注冊(cè)信息 |
AUTHORS | 相關(guān)文獻(xiàn)作者,或遞交序列的作者 |
TITLE | 相關(guān)文獻(xiàn)題目 |
JOURNAL | 相關(guān)文獻(xiàn)刊物雜志名,或遞交序列的作者單位 |
MEDLINE | 相關(guān)文獻(xiàn) Medline引文代碼 |
REMARK | 相關(guān)文獻(xiàn)注釋 |
COMMENT | 相關(guān)序列的注釋信息 |
FEATURES | 序列特征表的起始 |
BASE COUNT | 堿基種類統(tǒng)計(jì)數(shù) |
ORIGIN | 序列 |
文中關(guān)于埃博拉病毒的例子
特點(diǎn):
易讀性,便于信息交換
不利于計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析
可通過RefSeq進(jìn)行格式轉(zhuǎn)化
FASTA格式
在生物信息學(xué)中,F(xiàn)ASTA格式是一種用于記錄核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以單個(gè)字母編碼呈現(xiàn)。該格式同時(shí)還允許在序列之前定義名稱和編寫注釋。這一格式最初由FASTA軟件包定義,但現(xiàn)今已是生物信息學(xué)領(lǐng)域的一項(xiàng)標(biāo)準(zhǔn)。(來源維基)
格式
FASTA格式中的一條完整序列,包含開頭的單行描述行和多行序列數(shù)據(jù)。描述行行首前置半角大于號(hào)(“>”)以和數(shù)據(jù)行區(qū)分。“>”后緊接的內(nèi)容為該序列的標(biāo)識(shí)符,該行剩余部分則為序列的描述(標(biāo)識(shí)符與描述均非必須)。“>”和標(biāo)識(shí)符之間不應(yīng)有空格,且建議將單行內(nèi)容限制在80字符以內(nèi)。序列的結(jié)束以下一條序列的“>”出現(xiàn)為標(biāo)識(shí)。如下為FASTA格式一條序列的示例:
例子
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
FASTQ格式
FASTQ格式是一種保存生物序列(通常為核酸序列)及其測(cè)序質(zhì)量得分信息的文本格式。序列與質(zhì)量得分皆由單個(gè)ASCII字符表示。
該格式最初由維爾康姆基金會(huì)桑格研究所開發(fā),旨在將FASTA格式序列及其質(zhì)量數(shù)據(jù)集成在一起。而目前,F(xiàn)ASTQ格式已經(jīng)成為了保存高通量測(cè)序結(jié)果的事實(shí)標(biāo)準(zhǔn)。(維基百科)
格式
FASTQ文件中,一個(gè)序列通常由四行組成:
-第一行以@開頭,之后為序列的標(biāo)識(shí)符以及描述信息(與FASTA格式的描述行類似)
-第二行為序列信息
-第三行以+開頭,之后可以再次加上序列的標(biāo)識(shí)及描述信息(可選)
-第四行為質(zhì)量得分信息,與第二行的序列相對(duì)應(yīng),長(zhǎng)度必須與第二行相同
第四行質(zhì)量分?jǐn)?shù)目前有兩種版本,為phred33以及phred64
phred33
phred64
常用的數(shù)據(jù)庫
GenBank contains all annotated and identified DNA sequence information
SRA: Short Read Archive contains measurements from high throughput sequencing experiments
UniProt: Universal Protein Resource is the most authoritative repository of protein sequence data.
Protein Data Bank (PDB) is the major repository of 3D structural information about biological macromolecules (proteins and nucleic acids). PDB contains structures for a spectrum of biomolecules - from small bits of proteins/nucleic acids all the way to complex molecular structures like ribosomes.
數(shù)據(jù)的獲取
Entrez Direct簡(jiǎn)介
Entrez Direct (EDirect) provides access to the NCBI's suite of interconnected databases (publication, sequence, structure, gene, variation, expression, etc.) from a UNIX terminal window. Functions take search terms from command-line arguments. Individual operations are combined to build multi-step queries. Record retrieval and formatting normally complete the process.
EDirect also includes an argument-driven function that simplifies the extraction of data from document summaries or other results that are returned in structured XML format. This can eliminate the need for writing custom software to answer ad hoc questions. Queries can move seamlessly between EDirect commands and UNIX utilities or scripts to perform actions that cannot be accomplished entirely within Entrez.(from NCBI)
EDirect工具介紹
名稱 | 用途 | 參數(shù) |
---|---|---|
esearch | 搜索命令,將所要檢索的內(nèi)容提交到 Entrez 中,返回相應(yīng)的結(jié)果記錄 | -db、-query |
efetch | 下載 NCBI 數(shù)據(jù)庫中的記錄和報(bào)告并以相應(yīng)格式打印輸出 | -db、-id、-format、-mode |
einfo | 獲取目標(biāo)結(jié)果在數(shù)據(jù)庫中的信息 | -db、-dbs、-fields、-links |
elink | 對(duì)目標(biāo)結(jié)果在其他數(shù)據(jù)庫中比配結(jié)果 | -db、-id、-related、-target、-name |
epost | 上傳 UIDs 或者 序列登記號(hào) | -db、-id、-format、-input、-label |
efilter | 對(duì)之前的檢索結(jié)果進(jìn)行過濾或限制 | -query、-sort、-field |
xtract | 將esearch獲得的 XML 格式結(jié)果轉(zhuǎn)換成表格格式 | -pattern、-if、-block、-element、-sep、-filter |
esummary | 獲得 XML 格式的建立 | -db、-id、-format、-mode |
ecitmatch | 統(tǒng)計(jì)引用數(shù)據(jù) | -journal、-year、-volume、-page、-author |
例子:
efetch -db=nuccore -format=gb -id=AF086833 |head
LOCUS AF086833 18959 bp cRNA linear VRL 13-FEB-2012
DEFINITION Ebola virus - Mayinga, Zaire, 1976, complete genome.
ACCESSION AF086833
VERSION AF086833.2
KEYWORDS .
SOURCE Ebola virus - Mayinga, Zaire, 1976 (EBOV-May)
ORGANISM Ebola virus - Mayinga, Zaire, 1976
Viruses; ssRNA viruses; ssRNA negative-strand viruses;
Mononegavirales; Filoviridae; Ebolavirus.
REFERENCE 1 (bases 1 to 18959)
將相同序列存儲(chǔ)為genbank格式
efetch -db=nuccore -format=gb -id=AF086833 > AF083833.gb
head AF083833.gb
LOCUS AF086833 18959 bp cRNA linear VRL 13-FEB-2012
DEFINITION Ebola virus - Mayinga, Zaire, 1976, complete genome.
ACCESSION AF086833
VERSION AF086833.2
KEYWORDS .
SOURCE Ebola virus - Mayinga, Zaire, 1976 (EBOV-May)
ORGANISM Ebola virus - Mayinga, Zaire, 1976
Viruses; ssRNA viruses; ssRNA negative-strand viruses;
Mononegavirales; Filoviridae; Ebolavirus.
REFERENCE 1 (bases 1 to 18959)
將相同序列存儲(chǔ)為FASTA格式
efetch -db=nuccore -format=fasta -id=AF086833 > AF083833.fa
head AF083833.fa
>AF086833.2 Ebola virus - Mayinga, Zaire, 1976, complete genome
CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA
TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT
CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT
TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC
AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA
TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC
ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA
ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG
TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA
其余例子不一一搬運(yùn)
Aspera工具介紹
Aspera提供了大文件高速傳輸方案,適合于大數(shù)據(jù)的傳輸。客服端的使用是免費(fèi)的。
wget https://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
bash aspera-connect-3.7.4.147727-linux-64.sh
Aspera的用法:
$ ascp [參數(shù)] 目標(biāo)文件 目的地址
Aspera的常用參數(shù):
-T 不進(jìn)行加密。若不添加此參數(shù),可能會(huì)下載不了。
-i string
輸入私鑰,安裝 aspera 后有在目錄 ~/.aspera/connect/etc/ 下有幾個(gè)私鑰,使用 linux 服務(wù)器的時(shí)候一般使用 asperaweb_id_dsa.openssh 文件作為私鑰。
--host=string
ftp的host名,NCBI的為ftp-private.ncbi.nlm.nih.gov;EBI的為fasp.sra.ebi.ac.uk。
--user=string
用戶名,NCBI的為anonftp,EBI的為era-fasp。
--mode=string
選擇模式,上傳為 send,下載為 recv。
-l string
設(shè)置最大傳輸速度,比如設(shè)置為 200M 則表示最大傳輸速度為 200m/s。若不設(shè)置該參數(shù),則一般可達(dá)到10m/s的速度,而設(shè)置了,傳輸速度可以更高。
命令行下載SRA數(shù)據(jù)(SRR3589956)
ascp -T -i /home/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589956/SRR3589956.sra ./
瀏覽器插件下載SRA數(shù)據(jù)