VCF格式

劉小澤寫于18.7.17
所有的數(shù)據(jù),一旦要找變異位點(diǎn)信息,就離不開VCF。豆豆也是在寫一個(gè)重測(cè)序的操作流程,遇到了VCF文本,之前也是沒有了解過,這次再多學(xué)一個(gè)格式官方最新說明文檔https://samtools.github.io/hts-specs/VCFv4.3.pdf這個(gè)文件格式的解讀會(huì)比以往各種文件都要重要,有了它就能直接進(jìn)行分析了,屬于離下游可視化最近的數(shù)據(jù)

VCF是什么?

這個(gè)東東的全名是:Variant Call Format【真的是“簡(jiǎn)稱讓我無(wú)地自容,全稱使我無(wú)師自通啊”】它是存儲(chǔ)變異位點(diǎn)的標(biāo)準(zhǔn)格式,可以用來(lái)表示單核苷酸多態(tài)性(SNP)【在人類基因組中,分布普遍并且密度比較大,總數(shù)超過107, 平均每300bp就有一個(gè)SNP 】、插入缺失(InDel,也就是短片段的插入與缺失)結(jié)構(gòu)變異(SV: Structural Variant,也就是大片段的插入與缺失)拷貝數(shù)量變異(CNV:Copy Number Variant)【說一下CNV:比如一個(gè)基因在染色體的一條染色單體上的數(shù)目為1,但是在染色體復(fù)制過程中,不知為何,復(fù)制結(jié)束后該基因在染色單體數(shù)目由1變成了2或者n。尤其在人類基因組中存在大量大于1 kb但小于3 Mb的DNA片段多態(tài)。它發(fā)生的頻率遠(yuǎn)遠(yuǎn)高于染色體結(jié)構(gòu)變異,并且整個(gè)基因組中覆蓋的核苷酸總數(shù)大大超過SNP的總數(shù)】

變異的生物學(xué)基礎(chǔ)

遺傳與變異:遺傳就是將親代的遺傳物質(zhì)傳遞給子代,這樣保持了世代交替中的穩(wěn)定性;但是,這種穩(wěn)定性又非一成不變,每個(gè)個(gè)體的基因組隨著時(shí)間和空間的變化,導(dǎo)致結(jié)構(gòu)發(fā)生改變,從而產(chǎn)生了不同于親本的性狀,這就是變異。總而言之,遺傳保持了物種代代之間可持續(xù)性,變異提供了長(zhǎng)期進(jìn)化過程中的適應(yīng)性,又促進(jìn)了進(jìn)化。

同一個(gè)親本的子代在不同時(shí)間、不同空間與環(huán)境相互作用,就會(huì)出現(xiàn)不同的基因型和表型,基因檢測(cè)就是通過檢測(cè)不同樣本基因組上的差異,來(lái)推斷基因型與表型之間的關(guān)系,還有與環(huán)境之間的互作關(guān)系。

基因組上的變異主要有單個(gè)堿基的變異(轉(zhuǎn)換、顛換、插入、缺失)以及染色體水平的變異(插入、缺失、易位、倒位)。這些表現(xiàn)在基因組檢測(cè)上就是:SNP、InDel、SV、Corpangene(插入缺失發(fā)生在基因水平)、CNV(發(fā)生在串聯(lián)重復(fù)區(qū)的插入與缺失)

變異物質(zhì)基礎(chǔ):

基因組發(fā)生變異的原因主要可以分為自發(fā)突變和誘發(fā)突變。之所以能夠累計(jì)這么多突變,主要由于自發(fā)突變。而引起自發(fā)突變的原因也有很多,比如DNA復(fù)制過程中由于DNA聚合酶產(chǎn)生錯(cuò)誤、DNA物理?yè)p傷、轉(zhuǎn)座等,但這些錯(cuò)誤和損傷大多會(huì)被自身的修復(fù)系統(tǒng)修復(fù),那么為什么還會(huì)有這么多變異位點(diǎn)存在呢?

這是因?yàn)椤?/p>

  • 堿基能夠以互變異構(gòu)體的不同形式存在【A-T配對(duì)變?yōu)镚C的過程】
    0_0.png
  • InDel:堿基有時(shí)會(huì)從核苷酸移除,留下一個(gè)叫做脫嘌呤或者脫嘧啶的缺口,進(jìn)行下一輪復(fù)制時(shí)不能夠正常配對(duì)。【原因可能是胞嘧啶自然脫氨基形成尿嘧啶,因?yàn)槟蜞奏げ⒎荄NA的堿基所以被DNA自身的修復(fù)系統(tǒng)識(shí)別并清除,留下一個(gè)空位】
    0_1.png
  • 轉(zhuǎn)座子:隨機(jī)插入到基因組,就相當(dāng)于基因組上一個(gè)位點(diǎn)被復(fù)制/剪切后粘貼。當(dāng)有多個(gè)這種序列結(jié)構(gòu)時(shí),他們之間就是同源的,因此就會(huì)導(dǎo)致同源重組【同源重組:非姐妹染色單體(sister chromatin) 之間或同一染色體上含有同源序列的DNA分子之間或分子之內(nèi)的重新組合,進(jìn)而引起缺失、重復(fù)、倒位等】

VCF文件怎么用?

VCF使用UTF-8編碼,有兩大部分:一部分是注釋信息(以##開頭),一部分是具體突變信息【給出兩個(gè)例子】

0.png
1.png

注釋信息(##表示)

十分重要!后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到

INFO是堿基位點(diǎn)的注釋,對(duì)應(yīng)紅框中的INFO,是對(duì)基因組特定位置進(jìn)行的計(jì)算;FORMAT是每個(gè)樣本都有的描述

  • 第一行:一定是##fileformat ,VCF格式版本號(hào)

  • ##FILTER:顯示這個(gè)文件已經(jīng)進(jìn)行了過濾

  • 然后是使用軟件的名稱及參數(shù)

  • ##reference & contig:使用的參考基因組信息及參考基因組contig信息

  • ##INFO行:每一行必須的四個(gè)標(biāo)簽是:ID、Number、Type、Description主要有幾個(gè)tag標(biāo)記:AD、DP、GQ、GT、PL

具體信息

紅框位置就是數(shù)據(jù)文件的頭信息(#表示),主要有CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE【前8列必須要有】

  • CHROM:變異位點(diǎn)從參考序列哪個(gè)染色體區(qū)段上找出來(lái)的

  • POS:異位點(diǎn)相對(duì)于參考基因組所在的最左端位置 (屬于1-坐標(biāo)系統(tǒng):從1開始計(jì)數(shù))【如果是InDel的情況,那么這個(gè)數(shù)值對(duì)應(yīng)InDel的第一個(gè)堿基位置】

    1-based coordinate system :序列的第一個(gè)堿基設(shè)為數(shù)字1,如SAM,VCF,GFF,wiggle格式0-based coordinate system :序列的第一個(gè)堿基設(shè)為數(shù)字0,如BAM, BCFv2, BED, PSL格式

  • ID:變異位點(diǎn)名稱(對(duì)應(yīng)dbSNP數(shù)據(jù)庫(kù)中的ID;若沒有,則默認(rèn)用. 表示他是一個(gè)novel variant)

  • REF:參考序列該位置堿基類型及個(gè)數(shù)

  • ALT:該位置變異的堿基類型及個(gè)數(shù)【多個(gè)用逗號(hào)分隔;對(duì)于SNP是單個(gè)堿基的改變;對(duì)于InDel是堿基數(shù)量的改變】

  • QUAL:變異位點(diǎn)質(zhì)量值(與測(cè)序數(shù)據(jù)一樣也是用Phred格式表示)Phred值= -10 * log(1-P), P是變異位點(diǎn)存在的概率。值越大,此位點(diǎn)保持原狀的概率越低,越可能發(fā)生變異。但是這個(gè)值隨著數(shù)據(jù)量增大而變大,并非十分準(zhǔn)確

  • FILTER:下一個(gè)位點(diǎn)是否要被過濾掉,如果顯示PASS,說明下一個(gè)位點(diǎn)和參考序列一致,那么這個(gè)位點(diǎn)有更大可能性為變異位點(diǎn)

  • INFO:結(jié)合描述理解有關(guān)該位點(diǎn)的額外信息 【包含信息最多,形式為Tag=Value, 分號(hào)分隔】

  • FORMAT:變異位點(diǎn)格式

  • SMAPLE:使用的樣本名稱,由bam文件中@RG的SM標(biāo)簽決定

關(guān)于第八列INFO

2.png
3.png

看上去是一列,但其中的內(nèi)容可以無(wú)限擴(kuò)增,常用的tag主要有:

AC、AF、AN【和等位基因有關(guān)】: AC:Allele Count該位點(diǎn)變異的等位基因數(shù)目; AF:Allel Frequency 等位基因頻率; AN:Allel Number 等位基因的總數(shù)目

【單看這個(gè)不好理解,舉一個(gè)二倍體diploid例子:基因型0/1表示為雜合子,該位點(diǎn)只有一個(gè)等位基因發(fā)生突變,AF=0.5(在該位點(diǎn)只有50%的等位基因發(fā)生突變),總的等位基因數(shù)目為2;基因型1/1表示為純合子,AC=2,AF=1,AN=2】

DP:一部分reads被過濾掉后的覆蓋度

DP4 : 高質(zhì)量測(cè)序堿基,在ref或alt前后

Dels:官方解釋是“Fraction of reads containing spanning delections”,這個(gè)值用來(lái)區(qū)分indel和snv【SNV與SNP?--一個(gè)物種中該單堿基變異的頻率達(dá)到一定水平就叫SNP,而頻率未知(比如僅僅在一個(gè)個(gè)體中發(fā)現(xiàn))就叫SNV】【有這個(gè)tag且為0時(shí)表示該位點(diǎn)是SNV,沒有就是InDel,可以用來(lái)區(qū)分二者】

其他Tag:

4.png

還可以參考:http://www.bio-info-trainee.com/863.html

關(guān)于第九列FORMAT

表頭的##FORMAT就是對(duì)第九列的解釋,主要包括某一個(gè)特定位點(diǎn)基因型、測(cè)序深度的表述

5.png
6.png

主要包含兩列:前列為格式,后列為對(duì)應(yīng)的數(shù)據(jù)【他們之間都用冒號(hào)隔開】

GT:樣本基因型(genotype),兩個(gè)數(shù)字之間【這里是1/1】斜線分隔,表示二倍體樣本的基因型。0代表樣本中ref的allel,1代表樣本variant的allel,2表示有第二個(gè)variant的allel。0/0表示樣本中該位點(diǎn)純合,與ref一致;0/1表示樣本中該位點(diǎn)雜合,有ref和variant兩個(gè)基因型;1/1表示樣本中位點(diǎn)純合,與variant一致

AD和DP: 【第八列也有DP,但含義不同】AD是Allele Depth,樣本中每一種allel的reads覆蓋度,在二倍體中是用逗號(hào)分隔的兩個(gè)數(shù),前面對(duì)應(yīng)ref,后面對(duì)應(yīng)variant;DP是Depth,是樣本中該位點(diǎn)覆蓋度

PL: Provides the likelihoods of the given genotypes指定三種基因型的質(zhì)量值大小(基因型為0/0, 0/1, 1/1),對(duì)應(yīng)的值越大,表示這種基因型的可能性越小

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,701評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,694評(píng)論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,026評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,193評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,719評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,668評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,846評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,394評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,635評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容