一 結果文件說明
??? 1? VCF (Variant Call Format)是儲存Variation結果的文件格式 該文件的#列為文件的詳細解讀信息
??? 2? *.hg19_multianno.xls是在VCF的基礎上,用ANNOVAR注釋,并增加OMIM、GO、KEGG等數據庫功能注釋信息。
二 結果文件(*.hg19_multianno.xls)按照功能區域注釋基因及區域注釋
變異位點所處的基因(對應的氨基酸)可能直接與疾病相關。公司對變異位點進行已知基因結構及所處區域注釋,有助于老師了解此變異位點對應的基因結構及所處區域信息。
CHROM:染色體
POS:變異位點在染色體上的絕對位置
ID:dbSNP注釋ID
REF:參考基因組堿基型
ALT:樣本基因組堿基型
Func.refGene:對變異位點所在的區域進行注釋(exonic,splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3,ncRNA_UTR5, ncRNA _splicing, upstream, downstream,intergenic)。
說明:1、exonic應該包括coding exonic portion、UTR3和UTR5,但ANNOVAR注釋結果中exonic只代表coding exonic portion。2、當一個變異位點位于多個基因或轉錄本,且功能不同,這些功能按照優先級排序,該列輸出優先級最高的功能類型:Exonic = splicing > ncRNA> > UTR5/UTR3 > intron > upstream/downstream? > intergenic。當一個變異既位于一個基因的UTR3,又位于另一個基因的UTR5時,該列輸出"UTR5,UTR3"。當一個變異既位于一個基因的downstream,又位于另一個基因的upstream時,該列輸出"upstream,downstream "。
Gene.refGene:列出該變異位點相關的基因。
XXXlocalfreq:公司正常人外顯子數據庫中,該變異位點上突變堿基的等位基因頻率;例如:0.32;表示假設數據庫中1000人,其中320個人有該突變;
hgmd_variantType,hgmd_pmid:人類基因突變數據庫注釋,給出該變異位點相關的突變類型和在HGMD數據庫中的ID
omim_id:孟德爾遺傳病數據庫注釋,給出與變異位點所在基因相關的OMIM數據庫ID
pho_or_dis,chpo_or_dis:給出與變異位點所在基因相關的遺傳疾病中英文表型名稱或疾病信息
inheritance:給出與變異位點所在基因相關的遺傳方式
GeneDetail.refGene:描述UTR、splicing、ncRNA_splicing或intergenic區域的變異情況。當Func列的值為exonic、ncRNA_exonic、intronic、ncRNA_intronic、upstream、downstream、upstream;downstream、ncRNA_UTR3、ncRNA_UTR5時,該列為空;當Func列的值為exonic;splicing時,表示該位點位于某些轉錄本的exonic區,另一些轉錄本的splicing區,這種情況下,GeneDetail會給出該位點對于轉錄本splicing的影響,例如,NM_1524XX:exon3:c.232C>T,表示該變異位于轉錄本NM_1524XX上,exon3表示第3個外顯子,c.232C>T表示cDNA的232bp處發生由C到T的突變;當Func列的值為intergenic時,該列格式為dist=1322;dist=12414,表示該變異位點距離兩側基因的距離
ExonicFunc.refGene:外顯子區的SNV or InDel變異類型(SNV的變異類型包括synonymous_SNV, missense_SNV, stopgain,stopgloss和unknown;InDel的變異類型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown)
AAChange.refGene:氨基酸改變,只有當Func列為exonic或exonic;splicing時,該列才有結果。按照每個轉錄本進行注釋(例如,AIM1L:NM_001039775:exon2:c.C2768T:p.P923L,其中,AIM1L表示該變異所在的基因名稱,NM_001039775表示該變異所在的轉錄本ID,exon2表示該變異位于轉錄本的第二個外顯子上,c.C2768T表示該變異引起cDNA在第2768位上由C突變為T,p.P923L表示該變異引起蛋白序列在第923位上的氨基酸由Pro變為Leu),再如,FMN2:NM_020066:exon1:c.160_162del:p.54_54del,表示該變異引起cDNA的第160到162位發生刪除,p.54_54del表示該變異引起蛋白序列在第54位上的氨基酸刪除
*.wgEncodeGencodeBasicV19:Gencode對變異位點所在的區域進行注釋(相關解釋同*.refGene)
cpgIslandExt:CpG島預測結果,注釋結果為CpG島名稱,如CpG:?116(116是該CpG島中CG二核苷酸的數目)
cytoband:該變異位點所處的染色體區段(利用Giemas染色觀察得到的)。如果變異位點跨過多個區段,用短橫線連接
wgRna:基于miRBase和snoRNABase,對變異位點相關的microRNA和snoRNA進行注釋,給出microRNA和snoRNA的基因名稱
targetScanS:UCSC提供TargetScanS注釋數據庫,庫中包含在3’UTR中保守的microRNA結合位點,來源于TargetScanHuman5.1的預測結果;該軟件預測microRNA的靶點,預測結果依據microRNA與靶點之間結合的效能進行排序,排名越靠前,說明microRNA與其靶點的結合越可能是實際存在的事件。此項給出microRNA靶點的信息,一是score,是該靶點的分值,反映的是結合效能的排名,因此,score越大,說明排名越靠后,實際發生該結合的可能性越小,作者沒有推薦閾值;二是Name,是作用于該靶點的microRNA名稱。例如,Score=62;Name=KRAS:miR-181:1,表示該靶點的分值是62,其位于KRAS基因的3’UTR中,受到該變異位點影響的microRNA是miR-181:1。表示該變異位點位于microRNA(miR-181:1)在基因KRAS的3’UTR上的結合位點。
tfbsConsSites:基于transfac矩陣數據庫(v7.0),計算所有轉錄因子結合位點在人/小鼠/大鼠比對中的保守分值,當結合位點的分值達到閾值時,認為該位點在人/小鼠/大鼠中保守。該列給出的是該變異位點所在的保守轉錄因子結合位點的位置和分值,即Name和Score。Name是結合位點處的motif名稱,這些motif能夠被轉錄因子識別,例如V$CDPCR3_01,利用一些在線服務器(如MSigDB)能夠查詢這個motif能夠被哪些轉錄因子識別;Score是該結合位點的保守分值
genomicSuperDups:檢測該變異位點是否位于重復片段(segmental duplication)中。重復區域中檢測到的遺傳變異大多數是由于序列比對錯誤造成的,所以被注釋到segmental duplications的變異需要謹慎對待,很可能是假陽性位點。給出兩個值,一是Name,表示基因組中與該變異位點所在區域相似的片段的位置;二是Score,表示兩個相似片段的序列一致性。例如,Score=0.994828;Name=chr19:60000,表示chr19:60000所在片段跟該變異位點所在片段相似,序列一致性為0.994828,范圍0~1
rmsk:重復序列注釋信息,重復序列來源于RepeatMasker注釋。例如,Name="1385:(CACCC)n(Simple_repeat)"。Name由兩部分構成,一部分(CACCC)n是repeat的名稱,另一部分Simple是repeat的類別。只要有注釋信息,就表明該變異位于散在重復序列或低復雜度序列中;這些區域容易出現比對錯誤,所以該區域的變異位點可靠性不高 保守(有害)性預測個體中的突變往往非常多(全基因組范圍內能達到3.6M-4.4M),而真正有害的突變卻是罕見的,有很多根據變異位點的保守性等信息進行有害性預測的軟件能幫助我們進行突變位點的有害性評估。采用國際慣用的變異有害性預測軟件對突變位點的有害性進行預測,協助找出真正有害的突變位點。
SIFT:SIFT分值(dbNSFP version 3.0),表示該變異對蛋白序列的影響。逗號前后分別是SIFT_score和SIFT_pred:SIFT_score是SIFT分值,分值越小越可能“有害”,表明該SNP導致蛋白結構或功能改變的可能性大。SIFT_pred是預測結果,取值為T或者D。當該變異同時影響多個蛋白序列時,對每條蛋白序列有一個SIFT值,取最小值。D: Deleterious (sift<=0.05); T: tolerated (sift>0.05))
Polyphen2_HVAR:利用PolyPhen2基于HumanVar數據庫預測該變異對蛋白序列的影響,用于孟德爾遺傳病的診斷(dbNSFP version 3.0)。逗號前后分別是Polyphen2_HVAR_score和Polyphen2_HVAR_pred:Polyphen2_HVAR_score是PolyPhen 2分值,數值越大越可能“有害”,表明該SNP導致蛋白結構或功能改變的可能性大;Polyphen2_HVAR_pred是預測結果,取值為D或P或B(D: Probably damaging (>=0.909), P: possibly damaging (0.447<=pp2_hvar<=0.909); B: benign (pp2_hvar<=0.446))Polyphen2_HDIV:利用PolyPhen2基于HumanDiv數據庫預測該變異對蛋白序列的影響,用于復雜疾病(dbNSFP version? 3.0)。逗號前后分別是Polyphen2_HDIV_score和Polyphen2_HDIV_pred:Polyphen2_HDIV_score是PolyPhen2分值,數值越大越可能“有害”,表明該SNP導致蛋白結構或功能改變的可能性大;Polyphen2_HDIV_pred是預測結果,取值為D或P或B(D:Probably damaging (>=0.957), P: possibly damaging (0.453<=pp2_hdiv<=0.956); B: benign(pp2_hdiv<=0.452))
MutationTaster: MutationTaster預測結果(dbNSFP version3.0),表示該變異對蛋白序列的影響。逗號前后分別是MutationTaster_score和MutationTaster_pred:MutationTaster_score是MutationTaster分值,取值為0-1,分值越大,表示預測結果越可靠。MutationTaster_pred是預測結果,取值為A、D、N或者P。"A"("Disease_causing_automatic"); "D"("Disease_causing"); "N" ("Polymorphism"); "P"("Polymorphism_automatic")。A和D都表示位點可能有害。
MutationAssessor:MutationAssessor預測結果(dbNSFP version? 3.0),表示該變異對蛋白序列的影響。逗號前后分別是MutationAssessor_score和MutationAssessor_pred:MutationAssessor_score是MutationAssessor初始分值,越大越可能“有害”,表明該SNP導致蛋白結構或功能改變的可能性大。MutationAssessor_pred是H、M、L或N(H:? high; M: medium; L: low; N: neutral.)。H和M表示功能性的,L和N表示non-functional??
LRT:LRT預測結果(dbNSFP version3.0),表示該變異對蛋白序列的影響。逗號前后分別是LRT_score和LRT_pred:LRT_score是LRT分值,分值越小越可能“有害”,表明該SNP導致蛋白結構或功能改變的可能性大。LRT_pred是預測結果,取值為D、N或者U(D:Deleterious; N: Neutral; U: Unknown)
FATHMM:FATHMM預測結果(dbNSFP version3.0),表示該變異對蛋白序列的影響。逗號前后分別是FATHMM_score和FATHMM_pred:FATHMM_score是FATHMM初始分值,分值小于-1.5認為是Deleterious,分值越小越可能有害,表明該SNP導致蛋白結構或功能改變的可能性大。FATHMM_pred是D或T(D:Deleterious; T: Tolerated)?
phyloP46way_placental: PhyloP預測結果(dbNSFP version3.0),基于46個哺乳動物物種的多序列比對得到位點的保守性分值,分值越大,位點越保守。該分值考慮的是變異位點的保守性,而非考慮該位點上的堿基,所以無論該位點上是同義突變還是非同義突變,score都相同。該分值用來尋找具有功能重要性的位點,利用這些score值,能夠推斷出疾病易感性位點
phyloP100way_vertebrate: PhyloP預測結果(dbNSFP version3.0),基于100個脊椎動物物種的多序列比對得到位點的保守性分值,分值越大,位點越保守
CADD:CADD是一種對SNV、InDel的有害性進行打分的工具,它整合多種信息來注釋變異位點的功能;不僅預測編碼區變異(包括同義突變和非同義突變的影響)的功能影響,還預測非編碼區變異的功能影響。對于SNP,僅對CADD分值排名在前10%的SNP給出分值,‘.'表示CADD分值排名不在前10%。我們的注釋結果中,有分值時,逗號前后分別是CADD和CADD_Phred;CADD列是初始分值,CADD_Phred是轉換后的分值;沒有分值,即為'.'時,表示CADD_Phred值小于10。CADD_Phred分值中,10表示score排名在前10%,20表示前1%,30表示前0.1%,因此,分值要求越低,能保留下來的位點越多。對于SNP,CADD作者建議CADD_Phred分值>15,文章中通常用10或15;InDel沒有建議值
SiPhy_29way_logOdds:與phylop類似,SiPhy是基于29種哺乳動物的多序列比對得到位點的保守性分值,分值越大,位點越保守(dbNSFP version 3.0)
gerp++gt2:dbNSFP version3.0中的gerp++只包含coding variant的注釋。為了注釋所有變異位點的保守性,ANNOVAR整理了gerp++gt2,包含GERP++ 分值大于2的位點。越保守的位點發生變異,對于蛋白的影響越大。分值越高,位點越保守。通常,GERP++ 分值大于2的位點認為是保守位點,可能具有功能數據庫(頻率)注釋人群中有很多變異位點是多態性的(高頻的),而真正有害的變異位點一般是低頻的。公司對每個變異位點注釋國際通用的部分數據庫中的頻率及臨床相關信息,有助于了解這個變異位點發生的頻率高低(臨床相關)的信息,協助找出致病突變位點。
wgEncode*HMM:non-coding區域的注釋
avsnp147:該變異在dbSNP(版本147)中的ID
?CLIN*:(clinvar_20170130)注釋變異與人類健康之間的關系,臨床意義的數據來源于NCBI,格式為:CLINSIG=Pathogenic;CLNDBN=Immunodeficiency_38;CLNACC=RCV000162196.3;CLNDSDB=MedGen:OMIM;CLNDSDBID=CN221808:616126。CLINSIG代表變異位點在臨床意義,可取值為Benign,Likely benign,Likely pathogenic,Pathogenic,drug response,not provided,Uncertain significance,other。CLINDBN代表變異位點相關的疾病名稱。CLNACC代表變異在CLINVAR數據庫中的accession號和版本號。CLNDSDB是疾病關聯信息的數據庫來源,CLNDSDBID是數據庫中的編號。
gwasCatalog:檢測變異位點是否在以往的GWAS研究中被報導,表示該變異位點與哪些疾病相關聯,“.”表示沒有GWAS報導
1000g2015aug_Chinese: 給出千人基因組計劃數據(2015年8月公布的版本)的中國人群中,該變異位點上突變堿基的等位基因頻率
1000g2015aug_eas:給出千人基因組計劃數據(2015年8月公布的版本)的東亞人群中,該變異位點上突變堿基的等位基因頻率
1000g2015aug_all:給出千人基因組計劃數據(2015年8月公布的版本)的所有人群中,該變異位點上突變堿基的等位基因頻率,文獻通常采用0.01的標準進行過濾
esp6500siv2_all:國家心肺和血液研究所外顯子組測序計劃(NHLBI-ESP project,esp6500si_all數據庫中包含SNP變異、InDel變異和Y染色體上的變異的所有個體中,突變堿基的等位基因頻率(alternative allele frequency),文獻中通常采用0.01的標準進行過濾.
ExAC_ALL:ExAC是Exome Aggregation Consortium的簡稱,整合了60706個無親緣關系個體的數據,這些個體來源于大量disease-specific研究和群體遺傳學研究,能夠用做嚴重疾病研究的reference set of allele frequency。目前ExAC數據庫中包括ALL, AFR (African), AMR (Admixed American), EAS (East Asian), FIN (Finnish), NFE (Non-finnish European), OTH(other), SAS (South Asian)。ExAC_ALL是指在所有人群中,該變異位點上突變堿基的等位基因頻率,文獻中通常采用0.01的標準進行過濾
ExAC_EAS:在ExAC的東亞人群中,該變異位點上突變堿基的等位基因頻率
gnomAD_exome_*: Aggregation Database(gnomAD)基因組聚合數據庫(gnomAD)是一個研究者聯盟,旨在整合和協調各種大型測序項目的外顯子組和基因組測序數據,并為更廣泛的科學界提供摘要數據。 在第一個版本中只包含了外顯子組數據,因此被稱為Exome Aggregation Consortium(ExAC);相關釋義見ExAC_*
InterVar(automated):InterVar按照ACMG檢驗標準給出的致病性分級基因功能及通路注釋 對突變位點所在基因進行疾病相關數據庫,通路及功能相關注釋,能了解到該突變位點是否已知與某類型疾病相關,也能了解到該突變位點所在基因存在于哪些通路中,對了解該基因的生物學功能有重要意義。
GO:Gene Ontology數據庫注釋,GO是基因本體學注釋,包括了基因的生物學過程(Biological Process,BP),細胞組分(Cellular Component,CC)和分子功能(Molecular Function,MF)的注釋。給出變異位點所在蛋白質或者基因參與的生物學通路名稱。
KEGG_PATHWAY:全基因組及代謝途徑數據庫注釋,給出變異位點所在基因參與的代謝通路名稱
Swissprot:是一個蛋白質序列數據庫,在整合其他數據庫信息的基礎上以較低的冗余度實現對蛋白質的評注功能,如功能描述、結構域、翻譯后修飾、變體等;變異位點信息 此部分信息為變異位點的詳細信息,包括變異位點的覆蓋深度,突變前后堿基型和純雜合信息等。變異位點的信息能在家系分析或者篩選中起到重要的作用。GT:GQ:DP:AD:ARQAUL:變異的質量值,值越高越好,文獻中常見20以上的過濾標準
FILTER:過濾TAG,如果該位點滿足所有過濾條件,則標記為PASS(過濾條件采用的是國際慣用的過濾標準)
INFO:變異軟件檢測的變異位點信息
FORMAT:用“:”分隔了若干個字段:
?GT:該位點基因型(Genotype)。0代表Allele和ref相同,1、2、3等代表Allele和ref不同;純合:0/0,1/1;雜合:0/1
?GQ:基因型質量值(對應格式0/0,0/1,1/1三種基因型,質量值越大越好)
?DP:該位點測序深度(覆蓋的總reads數)
AD: 該位點變異堿基型的深度(非參考堿基的reads數)
AR:變異堿基型的深度占總深度的比例
Genotype:與FORMAT列對應,‘:'分隔的每一部分對應FORMAT‘:’分隔的每一部分;?
優先級信息 通過積累公開文獻中的篩選標準,僅作為指導和參考。
1)該位點不在genome repeat 區域(即genomicSuperDups和Repeat 沒有注釋信息)
2)千人基因組數據庫中頻率小于0.01
3)該位點位于exonic 或者 splicing 區域
4)該位點經SIFT、Polyphen、MutationTaster、CADD預測至少有一個軟件預測為有害
5)該位點位于exonic 或者 splicing 區域
6)去掉本地數據庫中高頻出現的變異
7)去掉Qual小于20,Filter為lowQual的變異
8)gnomAD中各個種群最大MAF值<1%
9)去掉基因間的變異,保留外顯子以及距離剪接位點10個堿基之內的變異(但要保留HGMD,clinvar中報道的致病或疑似致病及VUS的變異)