2021.6.6
1. 序列格式
1.1 fasta
- 簡介
一種基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋,文件名常以.fasta
、.fa
結尾。
常見后綴說明:
.fasta:
普通的FASTA文件 (包括:.fas、 .fasta、.fsa、.fst、.txt和.fa等)
.fna:
表示核酸序列的 FASTA 文件
.faa:
表示氨基酸序列的 FASTA 文件
.ffn:
整個基因組編碼區的 FASTA 文件
.frn:
以 DNA 字母編碼表示的基因組非編碼 RNA 區 ( 如tRNA、rRNA ) 的 FASTA 文件
-
格式說明fasta
- 每條序列的第一行是由
>
開頭的任意文字說明。用于序列標記,最好每條序列的標識具有唯一性,一般會用空格把頭信息分為兩個部分:第一部分是序列名字,它和大于號(>)緊接在一起;第二部分是注釋信息,這個可以沒有。 - 從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號,其中核苷酸大小寫均可,氨基酸只能大寫。
1.2 fastq
- 簡介
一種基于文本的存儲測序生物序列和對應堿基(或氨基酸)質量的文件格式,可以看成fasta文件的變種,一條序列總共包括四個部分。 -
格式說明fastq
- 中第一行以“@”開頭,隨后為Illumina 測序標識符 (Sequence Identifiers) 和描述文字 (選擇性部分)。
- 第二行是堿基序列。
- 第三行以“+”開頭,隨后為Illumina 測序標識符 (選擇性部分)。
- 第四行是對應堿基的測序質量,該行中每個字符對應的 ASCII 值減去 33,即為對應第二行堿基的測序質量值。
2. 序列比對格式
不同建樹程序對輸入的多序列比對文件格式有各自的要求,可以用ALTER來進行各種常見的多序列比對格式間的轉換。
2.1 fasta
- 簡介
最常見的多序列比對格式,和序列的fasta格式類似,只是為了使整體出現最大的可能性,在序列中可能會添加一些-
。
fasta比對
2.2 clustal
- 簡介
clustal格式的文件是純文本格式,它可以選擇有一個頭來聲明clustal版本號。接下來是多序列比對,以及關于比對中每個位置保存程度的可選信息。 -
格式說明clustal
2.3 NEXUS
- 簡介
一種文本格式,使用“塊”的方式來組織信息。以#NEXUS開頭,后續說明了總體信息(包括序列數量,大小,數據類型,缺失數據等) -
格式說明NEXUS
2.4 PHYLIP
- 簡介
主要包括兩個部分:一個標題描述對齊維度(序列數量和大?。蟾嘈蛄袑R序列。 -
格式說明PHYLIP
3. 系統發育樹格式
3.1
4. 其他常見文件格式
4.1 Genbank
- 簡介
最早的生物信息學數據格式之一,包含的信息十分全面,常以.gbff
結尾。 -
格式說明genbank
關鍵說明
4.2 GFF和GTF
- 簡介
GFF (General Feature Format) 和 GTF (Gene Transfer Format) 都是用于存儲注釋信息的文本類型。目前常用GFF格式為第二本版的GFF2和第三版本的GFF3,GTF常用GTF2。兩者前8列是相同的,GTF格式相交GFF格式更加嚴格。以GFF3格式為例進行說明。 - 格式說明
NZ_CP068034.2 RefSeq region 1 6018586 . + . ID=NZ_CP068034.2:1..6018586;Dbxref=taxon:317;Is_circular=true;Name=ANONYMOUS;collection-date=2001-05-30;country=Belarus: Minsk region;gbkey=Src;genome=chromosome;isolation-source=Ribes nigrum leaves;lat-lon=53.893009 N 27.567444 E;mol_type=genomic DNA;nat-host=Ribes nigrum;strain=BIM B-268
NZ_CP068034.2 RefSeq gene 1 1536 . + . ID=gene-JJQ97_RS00005;Dbxref=GeneID:64441043;Name=dnaA;gbkey=Gene;gene=dnaA;gene_biotype=protein_coding;locus_tag=JJQ97_RS00005;old_locus_tag=JJQ97_25475
NZ_CP068034.2 Protein Homology CDS 1 1536 . + 0 ID=cds-WP_003437057.1;Parent=gene-JJQ97_RS00005;Dbxref=Genbank:WP_003437057.1,GeneID:64441043;Name=WP_003437057.1;gbkey=CDS;gene=dnaA;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064721.1;locus_tag=JJQ97_RS00005;product=chromosomal replication initiator protein DnaA;protein_id=WP_003437057.1;transl_table=11
NZ_CP068034.2 RefSeq gene 1575 2678 . + . ID=gene-JJQ97_RS00010;Dbxref=GeneID:64441044;Name=dnaN;gbkey=Gene;gene=dnaN;gene_biotype=protein_coding;locus_tag=JJQ97_RS00010;old_locus_tag=JJQ97_25480
NZ_CP068034.2 Protein Homology CDS 1575 2678 . + 0 ID=cds-WP_201418908.1;Parent=gene-JJQ97_RS00010;Dbxref=Genbank:WP_201418908.1,GeneID:64441044;Name=WP_201418908.1;gbkey=CDS;gene=dnaN;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064722.1;locus_tag=JJQ97_RS00010;product=DNA polymerase III subunit beta;protein_id=WP_201418908.1;transl_table=11
- seqname:序列定位,必須為染色體或組裝好的scaffold
- source:產生該GTF/GFF 文件的項目名稱
- feature:該段序列的特征:如 exon,CDS,enhancer等
- start:序列起始位點
- end:序列終止位點
- score:得分值,如無得分,則為“.”
- strand:正負鏈,用“+”和“-”表示,如不關心或者缺乏正負鏈信息,則為“.”
- frame:開放閱讀框,分別用0,1,2來區別,如果是非編碼序列,則為“.”
不同點:
- feature:GTF的feature type受限于使用軟件的規定,GFF的feature可以為任意內容。
- score:GTF的score一般不會被用到,都是“.”。
- attribute:GTF的第九列為attribute,為序列對應的屬性,其中的內容包括序列對應的 gene_id 和 transcript_id,一般還有序列中包含的外顯子數量,在GFF3版本中第九列也為attribute,但不同屬性中用“=”相隔,GTF格式中不同屬性用“;”分隔
- group:GFF2的第九列為group,來自同一個組的不同序列都被具有相同的組名。
貌似可以用gffread進行轉換
4.3 BED
4.4 SAM
4.5 BAM
3. BAM
3.1 簡介
????BAM格式是SAM格式的二進制版,SAM格式是純文本文件,是一種序列比對格式標準,存儲了測序獲得的信息,map到基因組后的各種信息,主要由兩部分組成。
3.2 格式規范
- header:標記了該SAM文件的一些基本信息,比如版本、按照什么方式排序的、Reference信息等等;
- 本體,每行為一個reads,不同列記錄了不同的信息,列與列之間通過tab分隔;
6. Stockholm format(斯德哥爾摩格式)
一種以.sto
結尾的序列比對文件格式,常常用于hmmer等分析。特征是比對序列開始部分的# STOCKHOLM 1.0
以及結束部分的//
。
stockholm格式