VCF格式

劉小澤寫于18.7.17
所有的數(shù)據(jù)，一旦要找變異位點(diǎn)信息，就離不開VCF。豆豆也是在寫一個(gè)重測(cè)序的操作流程，遇到了VCF文本，之前也是沒有了解過，這次再多學(xué)一個(gè)格式官方最新說明文檔https://samtools.github.io/hts-specs/VCFv4.3.pdf這個(gè)文件格式的解讀會(huì)比以往各種文件都要重要，有了它就能直接進(jìn)行分析了，屬于離下游可視化最近的數(shù)據(jù)

VCF是什么？

這個(gè)東東的全名是：Variant Call Format【真的是“簡(jiǎn)稱讓我無(wú)地自容，全稱使我無(wú)師自通啊”】它是存儲(chǔ)變異位點(diǎn)的標(biāo)準(zhǔn)格式，可以用來(lái)表示單核苷酸多態(tài)性（SNP）【在人類基因組中，分布普遍并且密度比較大，總數(shù)超過10⁷，平均每300bp就有一個(gè)SNP 】、插入缺失（InDel，也就是短片段的插入與缺失）、結(jié)構(gòu)變異(SV: Structural Variant，也就是大片段的插入與缺失) 、拷貝數(shù)量變異（CNV：Copy Number Variant）【說一下CNV：比如一個(gè)基因在染色體的一條染色單體上的數(shù)目為1，但是在染色體復(fù)制過程中，不知為何，復(fù)制結(jié)束后該基因在染色單體數(shù)目由1變成了2或者n。尤其在人類基因組中存在大量大于1 kb但小于3 Mb的DNA片段多態(tài)。它發(fā)生的頻率遠(yuǎn)遠(yuǎn)高于染色體結(jié)構(gòu)變異，并且整個(gè)基因組中覆蓋的核苷酸總數(shù)大大超過SNP的總數(shù)】

變異的生物學(xué)基礎(chǔ)

遺傳與變異：遺傳就是將親代的遺傳物質(zhì)傳遞給子代，這樣保持了世代交替中的穩(wěn)定性；但是，這種穩(wěn)定性又非一成不變，每個(gè)個(gè)體的基因組隨著時(shí)間和空間的變化，導(dǎo)致結(jié)構(gòu)發(fā)生改變，從而產(chǎn)生了不同于親本的性狀，這就是變異。總而言之，遺傳保持了物種代代之間可持續(xù)性，變異提供了長(zhǎng)期進(jìn)化過程中的適應(yīng)性，又促進(jìn)了進(jìn)化。

同一個(gè)親本的子代在不同時(shí)間、不同空間與環(huán)境相互作用，就會(huì)出現(xiàn)不同的基因型和表型，基因檢測(cè)就是通過檢測(cè)不同樣本基因組上的差異，來(lái)推斷基因型與表型之間的關(guān)系，還有與環(huán)境之間的互作關(guān)系。

基因組上的變異主要有單個(gè)堿基的變異（轉(zhuǎn)換、顛換、插入、缺失）以及染色體水平的變異（插入、缺失、易位、倒位）。這些表現(xiàn)在基因組檢測(cè)上就是：SNP、InDel、SV、Corpangene（插入缺失發(fā)生在基因水平）、CNV（發(fā)生在串聯(lián)重復(fù)區(qū)的插入與缺失）

變異物質(zhì)基礎(chǔ)：

基因組發(fā)生變異的原因主要可以分為自發(fā)突變和誘發(fā)突變。之所以能夠累計(jì)這么多突變，主要由于自發(fā)突變。而引起自發(fā)突變的原因也有很多，比如DNA復(fù)制過程中由于DNA聚合酶產(chǎn)生錯(cuò)誤、DNA物理?yè)p傷、轉(zhuǎn)座等，但這些錯(cuò)誤和損傷大多會(huì)被自身的修復(fù)系統(tǒng)修復(fù)，那么為什么還會(huì)有這么多變異位點(diǎn)存在呢？

這是因?yàn)椤?/p>

堿基能夠以互變異構(gòu)體的不同形式存在【A-T配對(duì)變?yōu)镚C的過程】

0_0.png

InDel：堿基有時(shí)會(huì)從核苷酸移除，留下一個(gè)叫做脫嘌呤或者脫嘧啶的缺口，進(jìn)行下一輪復(fù)制時(shí)不能夠正常配對(duì)。【原因可能是胞嘧啶自然脫氨基形成尿嘧啶，因?yàn)槟蜞奏げ⒎荄NA的堿基所以被DNA自身的修復(fù)系統(tǒng)識(shí)別并清除，留下一個(gè)空位】

0_1.png

轉(zhuǎn)座子：隨機(jī)插入到基因組，就相當(dāng)于基因組上一個(gè)位點(diǎn)被復(fù)制/剪切后粘貼。當(dāng)有多個(gè)這種序列結(jié)構(gòu)時(shí)，他們之間就是同源的，因此就會(huì)導(dǎo)致同源重組【同源重組：非姐妹染色單體（sister chromatin) 之間或同一染色體上含有同源序列的DNA分子之間或分子之內(nèi)的重新組合，進(jìn)而引起缺失、重復(fù)、倒位等】

VCF文件怎么用？

VCF使用UTF-8編碼，有兩大部分：一部分是注釋信息（以##開頭），一部分是具體突變信息【給出兩個(gè)例子】

0.png

1.png

注釋信息（##表示）

十分重要！后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到

INFO是堿基位點(diǎn)的注釋，對(duì)應(yīng)紅框中的INFO，是對(duì)基因組特定位置進(jìn)行的計(jì)算；FORMAT是每個(gè)樣本都有的描述

第一行：一定是##fileformat ，VCF格式版本號(hào)
##FILTER：顯示這個(gè)文件已經(jīng)進(jìn)行了過濾
然后是使用軟件的名稱及參數(shù)
##reference & contig：使用的參考基因組信息及參考基因組contig信息
##INFO行：每一行必須的四個(gè)標(biāo)簽是：ID、Number、Type、Description主要有幾個(gè)tag標(biāo)記：AD、DP、GQ、GT、PL

具體信息

紅框位置就是數(shù)據(jù)文件的頭信息（#表示），主要有CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE【前8列必須要有】

CHROM：變異位點(diǎn)從參考序列哪個(gè)染色體區(qū)段上找出來(lái)的
POS：異位點(diǎn)相對(duì)于參考基因組所在的最左端位置（屬于1-坐標(biāo)系統(tǒng)：從1開始計(jì)數(shù)）【如果是InDel的情況，那么這個(gè)數(shù)值對(duì)應(yīng)InDel的第一個(gè)堿基位置】

1-based coordinate system ：序列的第一個(gè)堿基設(shè)為數(shù)字1，如SAM,VCF,GFF,wiggle格式0-based coordinate system ：序列的第一個(gè)堿基設(shè)為數(shù)字0，如BAM, BCFv2, BED, PSL格式
ID：變異位點(diǎn)名稱（對(duì)應(yīng)dbSNP數(shù)據(jù)庫(kù)中的ID；若沒有，則默認(rèn)用. 表示他是一個(gè)novel variant）
REF：參考序列該位置堿基類型及個(gè)數(shù)
ALT：該位置變異的堿基類型及個(gè)數(shù)【多個(gè)用逗號(hào)分隔；對(duì)于SNP是單個(gè)堿基的改變；對(duì)于InDel是堿基數(shù)量的改變】
QUAL：變異位點(diǎn)質(zhì)量值（與測(cè)序數(shù)據(jù)一樣也是用Phred格式表示）Phred值= -10 * log(1-P), P是變異位點(diǎn)存在的概率。值越大，此位點(diǎn)保持原狀的概率越低，越可能發(fā)生變異。但是這個(gè)值隨著數(shù)據(jù)量增大而變大，并非十分準(zhǔn)確
FILTER：下一個(gè)位點(diǎn)是否要被過濾掉，如果顯示PASS，說明下一個(gè)位點(diǎn)和參考序列一致，那么這個(gè)位點(diǎn)有更大可能性為變異位點(diǎn)
INFO：結(jié)合描述理解有關(guān)該位點(diǎn)的額外信息 【包含信息最多，形式為Tag=Value, 分號(hào)分隔】
FORMAT：變異位點(diǎn)格式
SMAPLE：使用的樣本名稱，由bam文件中@RG的SM標(biāo)簽決定

關(guān)于第八列INFO

2.png

3.png

看上去是一列，但其中的內(nèi)容可以無(wú)限擴(kuò)增，常用的tag主要有：

AC、AF、AN【和等位基因有關(guān)】： AC：Allele Count該位點(diǎn)變異的等位基因數(shù)目； AF：Allel Frequency 等位基因頻率； AN：Allel Number 等位基因的總數(shù)目

【單看這個(gè)不好理解，舉一個(gè)二倍體diploid例子：基因型0/1表示為雜合子，該位點(diǎn)只有一個(gè)等位基因發(fā)生突變，AF=0.5（在該位點(diǎn)只有50%的等位基因發(fā)生突變），總的等位基因數(shù)目為2；基因型1/1表示為純合子，AC=2，AF=1，AN=2】

DP：一部分reads被過濾掉后的覆蓋度

DP4 ：高質(zhì)量測(cè)序堿基，在ref或alt前后

Dels：官方解釋是“Fraction of reads containing spanning delections”，這個(gè)值用來(lái)區(qū)分indel和snv【SNV與SNP？--一個(gè)物種中該單堿基變異的頻率達(dá)到一定水平就叫SNP,而頻率未知（比如僅僅在一個(gè)個(gè)體中發(fā)現(xiàn)）就叫SNV】【有這個(gè)tag且為0時(shí)表示該位點(diǎn)是SNV，沒有就是InDel，可以用來(lái)區(qū)分二者】

其他Tag：

4.png

還可以參考：http://www.bio-info-trainee.com/863.html

關(guān)于第九列FORMAT

表頭的##FORMAT就是對(duì)第九列的解釋，主要包括某一個(gè)特定位點(diǎn)基因型、測(cè)序深度的表述

5.png

6.png

主要包含兩列：前列為格式，后列為對(duì)應(yīng)的數(shù)據(jù)【他們之間都用冒號(hào)隔開】

GT：樣本基因型（genotype），兩個(gè)數(shù)字之間【這里是1/1】斜線分隔，表示二倍體樣本的基因型。0代表樣本中ref的allel，1代表樣本variant的allel，2表示有第二個(gè)variant的allel。0/0表示樣本中該位點(diǎn)純合，與ref一致；0/1表示樣本中該位點(diǎn)雜合，有ref和variant兩個(gè)基因型；1/1表示樣本中位點(diǎn)純合，與variant一致

AD和DP： 【第八列也有DP，但含義不同】AD是Allele Depth，樣本中每一種allel的reads覆蓋度，在二倍體中是用逗號(hào)分隔的兩個(gè)數(shù)，前面對(duì)應(yīng)ref，后面對(duì)應(yīng)variant；DP是Depth，是樣本中該位點(diǎn)覆蓋度

PL: Provides the likelihoods of the given genotypes指定三種基因型的質(zhì)量值大小(基因型為0/0, 0/1, 1/1)，對(duì)應(yīng)的值越大，表示這種基因型的可能性越小

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,578評(píng)論 6贊 544
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,701評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,691評(píng)論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,974評(píng)論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,694評(píng)論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 56,026評(píng)論 1贊 329
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,015評(píng)論 3贊 450
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,193評(píng)論 0贊 290
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,719評(píng)論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 360
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,668評(píng)論 1贊 374
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,151評(píng)論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,846評(píng)論 3贊 351
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,255評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,592評(píng)論 1贊 295
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,394評(píng)論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,635評(píng)論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

VCF格式

VCF格式

VCF是什么？

變異的生物學(xué)基礎(chǔ)

變異物質(zhì)基礎(chǔ)：

VCF文件怎么用？

注釋信息（##表示）

具體信息

關(guān)于第八列INFO

關(guān)于第九列FORMAT

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

VCF格式

VCF是什么？

變異的生物學(xué)基礎(chǔ)

變異物質(zhì)基礎(chǔ)：

VCF文件怎么用？

注釋信息（##表示）

具體信息

關(guān)于第八列INFO

關(guān)于第九列FORMAT

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频