突變需要學習的知識點

學習Jimmy直播我的基因組系列

SNV(經常會被混著SNP來稱呼,我們先不糾結這個細節)

  1. 通常一個人的全基因組測序數據可以挖掘到四百萬個SNVs(跟參考基因組不一樣的單堿基位點),還有五十萬的indels(insertions or deletions),但是得到的數據通常是以vcf文件格式給出的(自行搜索什么是vcf格式),比如下面:

2.首先記住一個很重要的知識點,變異是相對的!變異不等于突變。 簡單說一下什么是找變異,變異跟突變有什么區別呢?舉個栗子:有國際組織規定了人類的參考基因組(如UCSC,ENSEMBL,NCBI等,前面帖子都有講),就是 AAAAA(這里簡化一下,就5個堿基,其實人類基因組多達30億個) 。現在通過給自己測序得知,我與之對應的是AGCAA,那么我相比國際基因組來說,就是2個變異位點,位于基因組的坐標2和3,但是它們還不能說就是突變。

如第二位堿基,雖然我的是G,參考基因組是A,但是全球已經測序了幾百萬人,而我查看了他們的測序結果,其中99萬人都是G,這說明是參考基因組出現了問題,可能是國際組織當年恰好選擇了一個人是A,所以就規定第二個堿基是A。所以雖然我用軟件找到了我的這個位點相對于參考基因組是來說,是一個變異,但是這恰好是好事,完全不用擔心,我們也不需要用突變這個單詞來描述它!

那么接下來看第3位堿基,同樣,國際組織規定了是A,而我卻測了個C,但是全球已經公布的一百萬人里面99.999萬人都跟參考一樣,就是A。有一個人和參考基因組對應的堿基不一樣,不一樣的那個人是個有病的患者,這個時候,你就慘了,這個變異,就是突變了!

很多變異其實只是造成人種多樣性的原因,是構成人獨特性的基礎,而那些跟疾病相關的變異,我們通常就會叫做是突變

因我只舉了2個極端的例子,所以大家可能會誤以為,跟大多數人一樣,就沒事了!其實也并不是這樣,一般來說,在正常人的數據庫里面出現了5%的變異就可以認為沒什么大的危害,而且變異還可以分成germline、somatic、de novo等情況,如果是特定性的針對某種疾病還可以找driver的mutation.

vcf就是一個尤為重要的基本數據格式,里面描述的是變異位點的信息,是一個表格形式,不同的表頭下面有著不同的信息。VCF格式本來由千人基因組計劃提出來,方便描述他們找到的海量(當時是海量)變異位點。本質上也是個文本文件而已,普通編輯器打開即可。但是它對每一行每一列有具體的定義,包括文件最前面一些#開頭的注釋信息(這個非常重要,后面每一個位點的描述的tag都在這個注釋信息里面可以找到)

4.vcf文件的正文部分

vcf的正文部分,必須要有的是前面8列,一般來說可以有10列,分別是:

-1. #CHROM

  1. POS

  2. ID

  3. REF(參考序列的堿基)

  4. ALT(Variant的堿基)

  5. QUAL

  6. FILTER [來自于##FILTER]

  7. INFO

  8. FORMAT

  9. 可能會有樣本的名稱本

CHROM 和 POS:參考序列名和variant的位置;如果是INDEL的話,位置是INDEL的第一個堿基位置。

ID:variant的ID。比如在dbSNP中有該SNP的id,則會在此行給出;若沒有,則用’."表示其為一個novel variant。

REF 和 ALT:參考序列的堿基 和 Variant的堿基。

QUAL:Phred格式(Phred_scaled)的質量值,表 示在該位點存在variant的可能性;該值越高,則variant的可能性越大;計算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計算公式可以看出值為10的表示錯誤概率為0.1,該位點為variant的概率為90%。

FILTER:使用上一個QUAL值來進行過濾的話,是不夠的。GATK能使用其它的方法來進行過濾,過濾結果中通過則該值為”PASS”;若variant不可靠,則該項不為”PASS”或”.”。

INFO:這一行是variant的詳細信息,內容很多,以下再具體詳述。

FORMAT 和 TTG11B:這兩行合起來提供了’TTG11B′這個sample的基因型的信息。’TTG11B′代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標簽決定的。

image

前面7列都很簡單,顧名思義,分別就是該變異位點位于參考基因組的哪條染色體,哪個位置,是否被一下數據庫給標記了ID(通常說的是dbSNP),該位置的參考基因組是什么堿基,這個變異位點變異成了什么堿基。找到這個變異的軟件給它的質量值是多少,是否合格。下面這個表格里面我們可以看到第十列就是'realign',可以看到比對時候@RG留下來的sam的樣本名稱,就可以知道這個vcf是經過realign的那個bam里面call出來的突變。

vcf只學七列是遠遠不夠的,我們有必要下功夫把較為復雜的第8列和第9列的內容好好學習一下!

image

第8列 INFO 就非常復雜了,該列信息最多了,看起來是一列,但是里面可以無限包容,可以根據字段拆分成多列,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的TAG含義在VCF文件的頭部注釋信息##INFO中已給出。

通常我們熟悉的tag有:

ACAF 和,AN[A開頭的多和等位基因有關]:

AC(Allele Count) 表示該Allele的數目;

AF(Allele Frequency) 表示Allele的頻率; 

AN(Allele Number) 表示Allele的總數目。

對于1個diploid sample[二倍體樣本]而言

則基因型 0/1 表示sample為雜合子,Allele數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點只有50%的等位基因發生了突變),總的Allele為2; 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。

DP:reads覆蓋度。是一些reads被過濾掉后的覆蓋度。[注意,第八列和第九列都有DP,都表示該位點覆蓋深度的信息,但是詳細意義可能是不同的大家可以探究一下,在head里面就可以找到相應信息]

Dels:Fraction of Reads Containing Spanning Deletions。進行SNP和INDEL calling的結果中,有該TAG并且值為0表示該位點為SNV,沒有則為INDEL。[這個值很重要,可以根據這個tag分離indel和snv]

image

如果你覺得call變異的軟件默認給出的tag不符合你的要求,你可以繼續用其它軟件在該列里面不停的增加tag,我見過給該列直接添加到180個tag的,我們后面主要講如何來添加tag。

有了這8列,已經是標準的vcf文件了,但是大家肯定會奇怪,還沒有關于這個位點的基因型,測序深度的描述的信息。

這就是屬于后面的第9列FORMAT規定的了,如果有多個樣本,就會按照第九列的格式不停的增加下去。

第九列可以是GT,DP,FT,GL,PL,GP等等,都可以在該vcf文件的表頭里面找到關于它們的解釋。前面所講的 ##FORMAT 表頭部分 便是對第九列的解釋

第九列相對于第八列來說沒有那么復雜的信息,數據格式是比較固定的,其中包含的信息也很重要,主要是某一個特定位點基因型,測序深度的描述,因此有必要弄清楚。

image
image

第9列數據,包含兩列內容,兩列內容是對應的,前者為格式,后者為格式對應的數據。

GT:樣品的基因型(genotype)。兩個數字中間用’/"分 開,這兩個數字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個variant的allele。因此: 0/0 表示sample中該位點為純合的,和ref一致; 0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型; 1/1 表示sample中該位點為純合的,和variant一致。

AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值,前者對應ref基因型,后者對應variant基因型; DP(Depth)為sample中該位點的覆蓋度。

GQ:基因型的質量值(Genotype Quality)。Phred格式(Phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越 大;計算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL:指定的三種基因型的質量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。和之前不一致,該值越大,表明為該種基因型的可能 性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

最需要理解的就是DP4和GT了:

image

第十列的話就是樣本的信息 可以在比對的時候使用@RG來做一個標記

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 部分摘自# VincentLuo91的博客 Part 1 VCF格式的學習 1.什么是vcf?VCF是用于描述SN...
    天秤座的機器狗閱讀 25,885評論 3 55
  • 劉小澤寫于18.12.31再次知識迭代:打算以上中下三篇來認識一個新事物上篇:主要了解VCF的背景知識;一般我們會...
    劉小澤閱讀 10,370評論 2 37
  • 劉小澤寫于18.7.17所有的數據,一旦要找變異位點信息,就離不開VCF。豆豆也是在寫一個重測序的操作流程,遇到了...
    劉小澤閱讀 33,550評論 2 73
  • 1)VCF格式簡介 VCF格式:Variant Call Format,是用于表示SNP, indel, 和 st...
    oddxix閱讀 11,492評論 0 6
  • 桂林市靈川縣東源村委老塞村,這是我3月25日前行的目的地,此行的目的是為了一篇文章,在前往這個目的地之前,我有些猶...
    一個蓮子閱讀 333評論 0 4