FASTQ
fastq格式是一種基于文本的存儲生物序列和對應堿基或者氨基酸質量的文件格式,最初由桑格研究所(Wellcome Trust Sanger Institute)開發出來,現已成為存儲高通量測序數據的事實標準。
舉個例子:
head SRR4407795_1.fastq #查看前 10 行
我們可以看到每一個序列有四行
@SRR4407794.1 1 length=86
CCTGGCTTATTGCAGTTGTAACAAGATGGTTCGTCGGGACTCTGAGGGCAATCTTTGGCAAAGTGCCCTTCGCCATTACAGCGATA
+SRR4407794.1 1 length=86
FFFFFIIIIIIIIIIFFBFFIIBFF<FFBFFFF<FFFFFFFBBFBBFBBFBFFFFFBBBB<BB<BBBFBBBBFFFBBBBBFFFBBB
@SRR4407794.2 2 length=86
ATTTAAAATTAAAATATTAGATTTTATATTCACAAATCAATGATTTAAATTAAAAAAGTTTATTAAATAGATCGGAAGAGCACACG
+SRR4407794.2 2 length=86
BFFFBFIFIIBBFFFFFIFIIIIIIIIFIIFFFBFFI<<BFF<FFIIIFIIIFBFIII<BFBFFBBBFFFFFFFFBFFFFFFFBB<
...
第一行:必須以"@"開頭,后面跟著序列的id信息,以及描述(測序通道,坐標,reads長度等)
第二行:序列
第三行:必須以"+"開頭,后面跟著可選的ID標識符和可選的描述內容,但是內容必須和第一行保持一致
第四行:質量分數,對應到該測序儀器所采用的phred標準,對應ascall碼范圍求得整數質量分數值.
FASTA
fasta格式比較常見,用于表示核苷酸序列或氨基酸序列。
>QE2142515.1 CO1_species
MLLNKWFYSHKNIGTLYFIFGAGMLGTSFSLLIRAELGSPGSLIGNDHIFNVIVTSHAFIFFMVMPIMIGGFGNWLI
第一行:必須以">"開頭,后面接序列的id信息,然后是描述部分
第二行:序列信息,可以是核酸或者是氨基酸序列
如何計算fasta,fastq的序列條數
根據以上的描述,我們知道知道fastq條數就是總行數/4,fasta條數就是數">"的個數
- fastq
expr $(cat test.fastq | wc -l) / 4
- fasta
grep ">" test.fasta | wc -l