生信常用文件格式

2021.6.6

1. 序列格式

1.1 fasta

  • 簡介
    一種基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋,文件名常以.fasta.fa結尾。

常見后綴說明:
.fasta:普通的FASTA文件 (包括:.fas、 .fasta、.fsa、.fst、.txt和.fa等)
.fna:表示核酸序列的 FASTA 文件
.faa:表示氨基酸序列的 FASTA 文件
.ffn:整個基因組編碼區的 FASTA 文件
.frn:以 DNA 字母編碼表示的基因組非編碼 RNA 區 ( 如tRNA、rRNA ) 的 FASTA 文件

  • 格式說明
    fasta
  1. 每條序列的第一行是由>開頭的任意文字說明。用于序列標記,最好每條序列的標識具有唯一性,一般會用空格把頭信息分為兩個部分:第一部分是序列名字,它和大于號(>)緊接在一起;第二部分是注釋信息,這個可以沒有。
  2. 從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號,其中核苷酸大小寫均可,氨基酸只能大寫。

1.2 fastq

  • 簡介
    一種基于文本的存儲測序生物序列和對應堿基(或氨基酸)質量的文件格式,可以看成fasta文件的變種,一條序列總共包括四個部分。
  • 格式說明
    fastq
  1. 中第一行以“@”開頭,隨后為Illumina 測序標識符 (Sequence Identifiers) 和描述文字 (選擇性部分)。
  2. 第二行是堿基序列。
  3. 第三行以“+”開頭,隨后為Illumina 測序標識符 (選擇性部分)。
  4. 第四行是對應堿基的測序質量,該行中每個字符對應的 ASCII 值減去 33,即為對應第二行堿基的測序質量值。

2. 序列比對格式

不同建樹程序對輸入的多序列比對文件格式有各自的要求,可以用ALTER來進行各種常見的多序列比對格式間的轉換。

2.1 fasta

  • 簡介
    最常見的多序列比對格式,和序列的fasta格式類似,只是為了使整體出現最大的可能性,在序列中可能會添加一些-。
    fasta比對

2.2 clustal

  • 簡介
    clustal格式的文件是純文本格式,它可以選擇有一個頭來聲明clustal版本號。接下來是多序列比對,以及關于比對中每個位置保存程度的可選信息。
  • 格式說明
    clustal

2.3 NEXUS

  • 簡介
    一種文本格式,使用“塊”的方式來組織信息。以#NEXUS開頭,后續說明了總體信息(包括序列數量,大小,數據類型,缺失數據等)
  • 格式說明
    NEXUS

2.4 PHYLIP

  • 簡介
    主要包括兩個部分:一個標題描述對齊維度(序列數量和大?。蟾嘈蛄袑R序列。
  • 格式說明
    PHYLIP

3. 系統發育樹格式

3.1


4. 其他常見文件格式

4.1 Genbank

  • 簡介
    最早的生物信息學數據格式之一,包含的信息十分全面,常以.gbff結尾。
  • 格式說明
    genbank

    關鍵說明

4.2 GFF和GTF

  • 簡介
    GFF (General Feature Format) 和 GTF (Gene Transfer Format) 都是用于存儲注釋信息的文本類型。目前常用GFF格式為第二本版的GFF2和第三版本的GFF3,GTF常用GTF2。兩者前8列是相同的,GTF格式相交GFF格式更加嚴格。以GFF3格式為例進行說明。
  • 格式說明
NZ_CP068034.2   RefSeq  region  1   6018586 .   +   .   ID=NZ_CP068034.2:1..6018586;Dbxref=taxon:317;Is_circular=true;Name=ANONYMOUS;collection-date=2001-05-30;country=Belarus: Minsk region;gbkey=Src;genome=chromosome;isolation-source=Ribes nigrum leaves;lat-lon=53.893009 N 27.567444 E;mol_type=genomic DNA;nat-host=Ribes nigrum;strain=BIM B-268
NZ_CP068034.2   RefSeq  gene    1   1536    .   +   .   ID=gene-JJQ97_RS00005;Dbxref=GeneID:64441043;Name=dnaA;gbkey=Gene;gene=dnaA;gene_biotype=protein_coding;locus_tag=JJQ97_RS00005;old_locus_tag=JJQ97_25475
NZ_CP068034.2   Protein Homology    CDS 1   1536    .   +   0   ID=cds-WP_003437057.1;Parent=gene-JJQ97_RS00005;Dbxref=Genbank:WP_003437057.1,GeneID:64441043;Name=WP_003437057.1;gbkey=CDS;gene=dnaA;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064721.1;locus_tag=JJQ97_RS00005;product=chromosomal replication initiator protein DnaA;protein_id=WP_003437057.1;transl_table=11
NZ_CP068034.2   RefSeq  gene    1575    2678    .   +   .   ID=gene-JJQ97_RS00010;Dbxref=GeneID:64441044;Name=dnaN;gbkey=Gene;gene=dnaN;gene_biotype=protein_coding;locus_tag=JJQ97_RS00010;old_locus_tag=JJQ97_25480
NZ_CP068034.2   Protein Homology    CDS 1575    2678    .   +   0   ID=cds-WP_201418908.1;Parent=gene-JJQ97_RS00010;Dbxref=Genbank:WP_201418908.1,GeneID:64441044;Name=WP_201418908.1;gbkey=CDS;gene=dnaN;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064722.1;locus_tag=JJQ97_RS00010;product=DNA polymerase III subunit beta;protein_id=WP_201418908.1;transl_table=11
  1. seqname:序列定位,必須為染色體或組裝好的scaffold
  2. source:產生該GTF/GFF 文件的項目名稱
  3. feature:該段序列的特征:如 exon,CDS,enhancer等
  4. start:序列起始位點
  5. end:序列終止位點
  6. score:得分值,如無得分,則為“.”
  7. strand:正負鏈,用“+”和“-”表示,如不關心或者缺乏正負鏈信息,則為“.”
  8. frame:開放閱讀框,分別用0,1,2來區別,如果是非編碼序列,則為“.”

不同點:

  1. feature:GTF的feature type受限于使用軟件的規定,GFF的feature可以為任意內容。
  2. score:GTF的score一般不會被用到,都是“.”。
  3. attribute:GTF的第九列為attribute,為序列對應的屬性,其中的內容包括序列對應的 gene_id 和 transcript_id,一般還有序列中包含的外顯子數量,在GFF3版本中第九列也為attribute,但不同屬性中用“=”相隔,GTF格式中不同屬性用“;”分隔
  4. group:GFF2的第九列為group,來自同一個組的不同序列都被具有相同的組名。

貌似可以用gffread進行轉換

4.3 BED

4.4 SAM

4.5 BAM


3. BAM

3.1 簡介

????BAM格式是SAM格式的二進制版,SAM格式是純文本文件,是一種序列比對格式標準,存儲了測序獲得的信息,map到基因組后的各種信息,主要由兩部分組成。

3.2 格式規范

  • header:標記了該SAM文件的一些基本信息,比如版本、按照什么方式排序的、Reference信息等等;
  • 本體,每行為一個reads,不同列記錄了不同的信息,列與列之間通過tab分隔;

6. Stockholm format(斯德哥爾摩格式)

一種以.sto結尾的序列比對文件格式,常常用于hmmer等分析。特征是比對序列開始部分的# STOCKHOLM 1.0以及結束部分的//

stockholm格式

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,595評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,814評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,224評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,444評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,988評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,804評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,998評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,237評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,706評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,993評論 2 374

推薦閱讀更多精彩內容