劉小澤寫于18.7.17
所有的數(shù)據(jù),一旦要找變異位點(diǎn)信息,就離不開VCF。豆豆也是在寫一個(gè)重測(cè)序的操作流程,遇到了VCF文本,之前也是沒有了解過,這次再多學(xué)一個(gè)格式官方最新說明文檔https://samtools.github.io/hts-specs/VCFv4.3.pdf這個(gè)文件格式的解讀會(huì)比以往各種文件都要重要,有了它就能直接進(jìn)行分析了,屬于離下游可視化最近的數(shù)據(jù)
VCF是什么?
這個(gè)東東的全名是:Variant Call Format【真的是“簡(jiǎn)稱讓我無(wú)地自容,全稱使我無(wú)師自通啊”】它是存儲(chǔ)變異位點(diǎn)的標(biāo)準(zhǔn)格式,可以用來(lái)表示單核苷酸多態(tài)性(SNP)【在人類基因組中,分布普遍并且密度比較大,總數(shù)超過107, 平均每300bp就有一個(gè)SNP 】、插入缺失(InDel,也就是短片段的插入與缺失)、結(jié)構(gòu)變異(SV: Structural Variant,也就是大片段的插入與缺失) 、拷貝數(shù)量變異(CNV:Copy Number Variant)【說一下CNV:比如一個(gè)基因在染色體的一條染色單體上的數(shù)目為1,但是在染色體復(fù)制過程中,不知為何,復(fù)制結(jié)束后該基因在染色單體數(shù)目由1變成了2或者n。尤其在人類基因組中存在大量大于1 kb但小于3 Mb的DNA片段多態(tài)。它發(fā)生的頻率遠(yuǎn)遠(yuǎn)高于染色體結(jié)構(gòu)變異,并且整個(gè)基因組中覆蓋的核苷酸總數(shù)大大超過SNP的總數(shù)】
變異的生物學(xué)基礎(chǔ)
遺傳與變異:遺傳就是將親代的遺傳物質(zhì)傳遞給子代,這樣保持了世代交替中的穩(wěn)定性;但是,這種穩(wěn)定性又非一成不變,每個(gè)個(gè)體的基因組隨著時(shí)間和空間的變化,導(dǎo)致結(jié)構(gòu)發(fā)生改變,從而產(chǎn)生了不同于親本的性狀,這就是變異。總而言之,遺傳保持了物種代代之間可持續(xù)性,變異提供了長(zhǎng)期進(jìn)化過程中的適應(yīng)性,又促進(jìn)了進(jìn)化。
同一個(gè)親本的子代在不同時(shí)間、不同空間與環(huán)境相互作用,就會(huì)出現(xiàn)不同的基因型和表型,基因檢測(cè)就是通過檢測(cè)不同樣本基因組上的差異,來(lái)推斷基因型與表型之間的關(guān)系,還有與環(huán)境之間的互作關(guān)系。
基因組上的變異主要有單個(gè)堿基的變異(轉(zhuǎn)換、顛換、插入、缺失)以及染色體水平的變異(插入、缺失、易位、倒位)。這些表現(xiàn)在基因組檢測(cè)上就是:SNP、InDel、SV、Corpangene(插入缺失發(fā)生在基因水平)、CNV(發(fā)生在串聯(lián)重復(fù)區(qū)的插入與缺失)
變異物質(zhì)基礎(chǔ):
基因組發(fā)生變異的原因主要可以分為自發(fā)突變和誘發(fā)突變。之所以能夠累計(jì)這么多突變,主要由于自發(fā)突變。而引起自發(fā)突變的原因也有很多,比如DNA復(fù)制過程中由于DNA聚合酶產(chǎn)生錯(cuò)誤、DNA物理?yè)p傷、轉(zhuǎn)座等,但這些錯(cuò)誤和損傷大多會(huì)被自身的修復(fù)系統(tǒng)修復(fù),那么為什么還會(huì)有這么多變異位點(diǎn)存在呢?
這是因?yàn)椤?/p>
-
堿基能夠以互變異構(gòu)體的不同形式存在【A-T配對(duì)變?yōu)镚C的過程】0_0.png
- InDel:堿基有時(shí)會(huì)從核苷酸移除,留下一個(gè)叫做脫嘌呤或者脫嘧啶的缺口,進(jìn)行下一輪復(fù)制時(shí)不能夠正常配對(duì)。【原因可能是胞嘧啶自然脫氨基形成尿嘧啶,因?yàn)槟蜞奏げ⒎荄NA的堿基所以被DNA自身的修復(fù)系統(tǒng)識(shí)別并清除,留下一個(gè)空位】0_1.png
- 轉(zhuǎn)座子:隨機(jī)插入到基因組,就相當(dāng)于基因組上一個(gè)位點(diǎn)被復(fù)制/剪切后粘貼。當(dāng)有多個(gè)這種序列結(jié)構(gòu)時(shí),他們之間就是同源的,因此就會(huì)導(dǎo)致同源重組【同源重組:非姐妹染色單體(sister chromatin) 之間或同一染色體上含有同源序列的DNA分子之間或分子之內(nèi)的重新組合,進(jìn)而引起缺失、重復(fù)、倒位等】
VCF文件怎么用?
VCF使用UTF-8編碼,有兩大部分:一部分是注釋信息(以##開頭),一部分是具體突變信息【給出兩個(gè)例子】
注釋信息(##表示)
十分重要!后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到
INFO是堿基位點(diǎn)的注釋,對(duì)應(yīng)紅框中的INFO,是對(duì)基因組特定位置進(jìn)行的計(jì)算;FORMAT是每個(gè)樣本都有的描述
第一行:一定是##fileformat ,VCF格式版本號(hào)
##FILTER
:顯示這個(gè)文件已經(jīng)進(jìn)行了過濾然后是使用軟件的名稱及參數(shù)
##reference & contig
:使用的參考基因組信息及參考基因組contig信息##INFO行
:每一行必須的四個(gè)標(biāo)簽是:ID、Number、Type、Description主要有幾個(gè)tag標(biāo)記:AD、DP、GQ、GT、PL
具體信息
紅框位置就是數(shù)據(jù)文件的頭信息(#表示),主要有CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE【前8列必須要有】
CHROM:變異位點(diǎn)從參考序列哪個(gè)染色體區(qū)段上找出來(lái)的
-
POS:異位點(diǎn)相對(duì)于參考基因組所在的最左端位置 (屬于1-坐標(biāo)系統(tǒng):從1開始計(jì)數(shù))【如果是InDel的情況,那么這個(gè)數(shù)值對(duì)應(yīng)InDel的第一個(gè)堿基位置】
1-based coordinate system :序列的第一個(gè)堿基設(shè)為數(shù)字1,如SAM,VCF,GFF,wiggle格式0-based coordinate system :序列的第一個(gè)堿基設(shè)為數(shù)字0,如BAM, BCFv2, BED, PSL格式
ID:變異位點(diǎn)名稱(對(duì)應(yīng)dbSNP數(shù)據(jù)庫(kù)中的ID;若沒有,則默認(rèn)用
.
表示他是一個(gè)novel variant)REF:參考序列該位置堿基類型及個(gè)數(shù)
ALT:該位置變異的堿基類型及個(gè)數(shù)【多個(gè)用逗號(hào)分隔;對(duì)于SNP是單個(gè)堿基的改變;對(duì)于InDel是堿基數(shù)量的改變】
QUAL:變異位點(diǎn)質(zhì)量值(與測(cè)序數(shù)據(jù)一樣也是用Phred格式表示)Phred值= -10 * log(1-P), P是變異位點(diǎn)存在的概率。值越大,此位點(diǎn)保持原狀的概率越低,越可能發(fā)生變異。但是這個(gè)值隨著數(shù)據(jù)量增大而變大,并非十分準(zhǔn)確
FILTER:下一個(gè)位點(diǎn)是否要被過濾掉,如果顯示PASS,說明下一個(gè)位點(diǎn)和參考序列一致,那么這個(gè)位點(diǎn)有更大可能性為變異位點(diǎn)
INFO:結(jié)合描述理解有關(guān)該位點(diǎn)的額外信息 【包含信息最多,形式為Tag=Value, 分號(hào)分隔】
FORMAT:變異位點(diǎn)格式
SMAPLE:使用的樣本名稱,由bam文件中@RG的SM標(biāo)簽決定
關(guān)于第八列INFO
看上去是一列,但其中的內(nèi)容可以無(wú)限擴(kuò)增,常用的tag主要有:
AC、AF、AN【和等位基因有關(guān)】: AC:Allele Count該位點(diǎn)變異的等位基因數(shù)目; AF:Allel Frequency 等位基因頻率; AN:Allel Number 等位基因的總數(shù)目
【單看這個(gè)不好理解,舉一個(gè)二倍體diploid例子:基因型0/1表示為雜合子,該位點(diǎn)只有一個(gè)等位基因發(fā)生突變,AF=0.5(在該位點(diǎn)只有50%的等位基因發(fā)生突變),總的等位基因數(shù)目為2;基因型1/1表示為純合子,AC=2,AF=1,AN=2】
DP:一部分reads被過濾掉后的覆蓋度
DP4 : 高質(zhì)量測(cè)序堿基,在ref或alt前后
Dels:官方解釋是“Fraction of reads containing spanning delections”,這個(gè)值用來(lái)區(qū)分indel和snv【SNV與SNP?--一個(gè)物種中該單堿基變異的頻率達(dá)到一定水平就叫SNP,而頻率未知(比如僅僅在一個(gè)個(gè)體中發(fā)現(xiàn))就叫SNV】【有這個(gè)tag且為0時(shí)表示該位點(diǎn)是SNV,沒有就是InDel,可以用來(lái)區(qū)分二者】
其他Tag:
還可以參考:http://www.bio-info-trainee.com/863.html
關(guān)于第九列FORMAT
表頭的##FORMAT就是對(duì)第九列的解釋,主要包括某一個(gè)特定位點(diǎn)基因型、測(cè)序深度的表述
主要包含兩列:前列為格式,后列為對(duì)應(yīng)的數(shù)據(jù)【他們之間都用冒號(hào)隔開】
GT:樣本基因型(genotype),兩個(gè)數(shù)字之間【這里是1/1】斜線分隔,表示二倍體樣本的基因型。0代表樣本中ref的allel,1代表樣本variant的allel,2表示有第二個(gè)variant的allel。0/0表示樣本中該位點(diǎn)純合,與ref一致;0/1表示樣本中該位點(diǎn)雜合,有ref和variant兩個(gè)基因型;1/1表示樣本中位點(diǎn)純合,與variant一致
AD和DP: 【第八列也有DP,但含義不同】AD是Allele Depth,樣本中每一種allel的reads覆蓋度,在二倍體中是用逗號(hào)分隔的兩個(gè)數(shù),前面對(duì)應(yīng)ref,后面對(duì)應(yīng)variant;DP是Depth,是樣本中該位點(diǎn)覆蓋度
PL: Provides the likelihoods of the given genotypes指定三種基因型的質(zhì)量值大小(基因型為0/0, 0/1, 1/1),對(duì)應(yīng)的值越大,表示這種基因型的可能性越小