gnomAD系列文章總結(2) -- 《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 gen...

距離上一篇文章的解讀已經過了一年,我又有機會拿gnomAD的文章講組會文獻分享了(狗頭)(其實這篇文章六一就寫好了,但是當時要發的時候簡書在系統維護。。。過兩天就忘記提交了。。。突然今天又想起來了。。。)

本文不是對文章的直接翻譯,而是個人閱讀文章后的整理和解讀,細節之處如有遺漏可能是我覺得不影響整體理解,但如有理解偏頗之處歡迎指出問題。

《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes》 Nature Communications?

標題直譯:在125,748個人類外顯子組和15,708個人類基因組數中的多核苷酸變異景觀/圖譜

文章鏈接:https://www.nature.com/articles/s41467-019-12438-5

一、背景及概念整理

1、什么是multi-nucleotide variants (MNVs)?

? ? 單詞直譯可以理解為多核苷酸變異,文中的定義可譯為:在一個個體中存在于同一單倍型上的兩個或多個相近變異的群集。這里主要是和傳統意義上的單核苷酸變異single nucleotide variants (SNVs) 進行了區別。在Fig1.a中我們可以看到,左圖的兩個單點突變分別位于兩條染色體上,形如復合雜合子,這不是MNV;右圖展示了MNV最重要的點,指兩個點突變同時發生在同一單倍型/染色體上。另外,這里的圖就是個示例,兩個點突變之間的距離可以是≥2的,但是也不要太遠,這個概念同時也是區別于GWAS關注的LD上的SNP的,本文主要討論了距離1~2bp的MNVs。

【啊。。。因為文章具體分析了1-100bp的MNV的calling效率,所以MNV的距離限制和定義在組會上被討論好久。。。老板覺得可能是作者被reviewer問了calling效率的評估,所以補了1-100bp的所有結果,但其實本質上研究分析的只有1-2bp的MNV。。。如果還有問題可以評論留言討論或者私信討論哦!】

Figure 1.a. Definition and an example of an MNV.

2、MNV造成的影響?

? ? 這里主要舉例了兩點距離≤2bp的MNVs,因為由密碼子的變化導致氨基酸的變化是最好理解的,也是最直接影響功能的。在Fig1.b中可以看到,如果一個MNV上的兩個突變位置正好位于同一個密碼子上,他們分別以SNV形式變異時會導致一個錯義突變和同義突變,但是同時變異時,會形成一個終止密碼子,導致可能影響蛋白質功能的無義突變。(類似這樣排列組合就會有很多的氨基酸變異結果,在Result2中會給這些變化進行具體的分類和解釋。)

Figure 1.b.?Impact of MNVs in coding regions.?

? ? 當然,除了上述改變之外,還會有很多影響功能的方式和可能性,但是這這篇文章中沒有做過多的分析和解釋。如有需要,各位研究者可以具體案例具體分析。

3、對MNV的認知程度和研究基礎

? ? 根據introduction中的內容可以進行簡單總結(對應的ref研究):

? ? MNV的發生率:MNV事件發生的頻率遠高于隨機概率(在trio WGS研究中得到),并且在人群中普遍存在(在1000G和ExAC中總結的);每一代的germline MNV發生率,約等于SNV發生率的1-3%(trio WGS研究)。

? ? MNV的發生機制:如聚合酶zeta在DNA復制中產生的錯誤(酵母實驗);受序列上下文的具體堿基影響(在1000G中分析得到);取決于其位于的基因組功能域和兩個突變位點之間的距離(在trio數據中的發現)。

? ? MNV的影響:比SNV更有可能造成危害(在疾病trio中的發現)。

4、關于MNV的關鍵科學問題:

① MNVs在全基因組范圍下的分布和完整的頻率如何?

? ??除了之前基于ExAC的分析外,沒有對成千上萬個深度測序個體的整個基因組(包括非編碼區)的mnv進行分析。

②?如何在遺傳疾病分析中識別和解釋MNVs?

? ??幾乎所有現有的臨床變異注釋工具都將遺漏MNV,這可能在遺傳疾病的家族分析中導致漏診和假陽性遺傳診斷。

二、全文框架整理

? ? 基于上述背景和關鍵科學問題,結合文章不同塊面使用的不同數據集,我自己整理了如下框架便于理解:

? ? 1、如何更好的辨識和篩選出MNVs?(Result1 + Methods)

? ? 2、MNVs在外顯子組范圍內,對蛋白質功能/氨基酸變化的影響情況分布(Result2)

? ? 3、MNVs在全基因組范圍內,突變的類型、來源、頻率等分布規律,及其和基因組區域的關系(Result3-5)

? ? 4、MNVs在遺傳病(罕見?。┲械淖饔?(Discussion)

三、文章具體展開

1、如何辨識和篩選出MNVs?

? ? 這其中涉及到3個步驟:① phasing,② calling,③ filtering

① Phasing 確定單倍型,這里可以用到3種方法:

? ? 1) 只基于測序結果的read-based phasing,普遍使用于所有測序結果,無關乎樣本量;

? ? 2) 基于家系測序結果的family-based phasing,加入父母的信息能更準確的判斷變異來源從而確定單倍型情況;

? ? 3) 基于群體單倍型規律的population-based phasing,常見于GWAS研究的前序步驟(工具如SHAPEIT),常用于LD區域相關的phasing處理。

? ? 本文使用read-based的GATK HaplotypeCaller作為phasing算法工具;為了評估其表現,以trio-based的算法對應結果作為金標準。

② Calling 識別MNV:

????使用Hail這個工具(https://github.com/hail-is/hail),利用window_by_locus這個參數調整來識別不同距離的MNVs;此外,研究只分析了常染色體。

? ? 結合上述的phasing和calling策略,文章先評估了phasing的效果和calling時適合的距離:

Result1:?當MNVs≤10bp時,read-based phasing (GATK HaplotypeCaller)表現良好。

? ??GATK HaplotypeCaller可以成功對>85%的臨近雜合子對進行單倍型分類(trio-based只能成功區分>60%);在比較兩種方法的結果時,>99.8%的trio-based結果可以在HaplotypeCaller中被識別出來(Fig1.c)。在下圖的右側和sup-table1-2中可以看到在calling distance?≤10bp時,敏感性和精確性都可以保持較高,>10bp后出現斷崖式下降(Sup-Fig1.d)。

Figure 1.c??Graphical overview of the analysis of phasing sensitivity and specificity using trio samples from our gnomAD callset.


? ? 綜上分析,本文后續的分析中即以如下標準進行MNVs的辨識和篩選:(其中的③Filtering以quality control為主要目的)

2、MNVs在外顯子組范圍內,對蛋白質功能/氨基酸變化的影響情況分布

? ? 本段分析只用到了125,748個外顯子組數據,和≤2bp的MNVs,旨在分析單核苷酸內的MNVs的功能變化情況。

? ? 這里需要引入多個作者定義的概念 (supplementary information):

Gained nonsense: Neither of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is.?

獲得性無義突變:原來兩個SNP都不是無義突變,MNP組合起來變成了無義突變。

Rescued nonsense: at least one of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is not.

被拯救的無義突變:原來兩個SNP至少有一個導致無義突變,MNP組合起來就不是無義突變了。

Gained Missense: the individual SNPs are synonymous, but the MNP results in a missense variant.

獲得性錯突變:原來兩個SNP都是同義突變,MNP組合起來變成了一個新的錯義突變。

Lost Missense: at least one of the individual SNPs is a missense variant, but the MNP is synonymous.

錯過的錯義突變:原來兩個SNP至少有一個導致錯義突變,MNP組合起來就是同義突變。

Changed Missense: at least one of the individual SNPs is a missense variant and the MNP is a new missense variant with a different resulting amino acid.

被改變的錯義突變:原來兩個SNP至少有一個導致錯義突變,MNP組合起來是全新的錯義突變。

Partially Changed Missense: The MNP is composed of two different missense variants that when considered together have the same amino acid outcome as only one of the variants (e.g. Missense A + Missense B = Missense A).

部分被改變的錯義突變:原來兩個SNP分別導致不同的錯義突變,MNP組合起來是兩者其一的錯義突變。

Unchanged: Either the outcome of the MNP is identical to that of the individual SNPs or one of the SNPs is a synonymous variant that does not change the outcome of an adjacent non-synonymous variant

不改變的突變:要么MNP的結果與單個SNP的結果相同;要么其中一個SNP是同義變異,它不會改變相鄰非同義變異的結果。

Result2:Rescued nonsense 比 Gained nonsense在(高約束性)基因中富集得更多;LoF相關的MNV注釋非常重要。

? ? 經統計,有31,575個MNVs位于同一個密碼子中,他們的突變類型分布如Fig2.a。

? ? 從功能上來說,gained / rescued nonsenses更可能影響基因的功能,所以關注到這兩類突變上來看:1633個基因攜帶gained?/ rescued nonsenses,其中包括41個與疾病相關的基因(Fig2.b)。

????有≈6%的gained nonsenses、≈20%的missense\unchanged、≈22%的rescued nonsenses,他們都是在LOEUF?decile?<20%的3941個基因中(約束性較高、較易和疾病相關的基因);由此可見,沒有MNV注釋時,LoF (loss-of-function)注釋錯誤顯著增多(Fig2.c)。


Figure 2.?Functional impact of MNVs.

3、MNVs在全基因組范圍內,突變的類型、來源、頻率等分布規律,及其和基因組區域的關系

? ? 由于在所有≤100bp的MNVs中,有87.9%的MNV是bp=1的adjacent MNV,所以接下來的這部分的分析都是基于15,708個全基因組數據中call出來的adjacent?MNVs進行的分析。

Result3-4:adjacent MNVs的全基因組分布符合三個主要突變起源的假設,每種假設分別解釋了相當一部分MNVs。

? ? 首先,對于adjacent?MNVs的產生機制,之前的研究認為主要由3種原因導致:1) 由獨立的單點突變組合而成(顛換or轉換、CpG區域均會影響單點突變的發生率);2)?pol-zeta導致的特定類型的DNA復制錯誤(TC>AA,GC>AA & GA>TT,GC>TT;3)?重復序列處的聚合酶滑脫事件。(Fig3.a)

Figure 3.a.?Three major categories of the mutational origin of MNVs.?

????最常見的MNV模式CA -> TG(C->T的CpG轉換Ti和A -> G的轉換Ti組合);最不常見的MNV模式是TA -> GC(兩個非CpG顛換Tv的組合)。(Fig3.b,Sup-Fig4 c.e)下圖最右的圖可以發現有些突變來源的類型和第一個來源假設(SNV組合)并不一致,接下來換個角度關注后兩種假設。

? ? ? ? 以兩個位點分別的突變頻率是否一致來評估他們是否是同時突變的one-step MNV,統計分析發現,90.5% 的 GA-?>?TT 和 80.5% 的 GC-?>?AA (poly-zeta error的典型突變型,紫色)都是one-step MNV,顯著高于所有突變型的平均值39.9%。(重復區域的TA>AT,one-step MNV比例也很高)

? ? 關注到重復序列區域,突變類型及來源分布可以看到聚合酶滑脫事件的主要類型(AA>TT,AT>TA,TA>AT)在重復序列區域上顯著富集。

????不同的MNV模式所占比例相差很大;每種MNV模式對應的起源占比各不相同,但總的來說,83.2%的MNVs可以找到對應的起源機制之一。

Figure 4.a. Distribution of MNVs across genome.

? ? Result5:一個基因組區域的MNV密度高度依賴于周圍序列的CpG甲基化狀態

? ??接下來研究了MNV不同模式的分布在功能注釋類別之間的差異,使用了編碼序列、增強子、啟動子等13種不同的功能注釋,以及來自ENCODE的DNA甲基化注釋。

????MNV密度:在每個區域中,WX>YZ突變序列數量占原始WX序列的比例。

? ??涉及CpG-Ti相關的突變模式中,MNV密度與甲基化水平呈正相關;相反地,Non-cpg Tv 相關的突變模式以及與pol-zeta滑移相關的突變模式,MNV密度與甲基化狀態呈負相關。(Fig.4.b-c)

? ??在基因編碼序列周圍選擇了7個主要的區域注釋,計算了這些區域中可能由不同突變來源解釋的mnv的比例。在所有區域中,發現MNV信號主要由CpG-Ti所主導;Pol-zeta error的主導性次之,除了在轉錄起始區域(TSS,在這七個注釋中甲基化率最低的區域);Non-cpg Tv和重復區域的聚合酶滑脫的比例始終低于(或幾乎等于)總信號的5%。(Fig.4.d)


Figure 4.b-d. Distribution of MNVs across genomic regions.? ?

4、MNVs在遺傳?。ê币姴。┲械淖饔?

????Discussion:MNVs對罕見疾病的診斷貢獻很少(即時用了文章的pipeline,作用也很有限)

? ? 雖然文章的背景中提到了MNV在疾病中的意義,比如在Genome Res. 2019中發現:在受影響的兒童中,de novo MNVs 在先前與發育障礙相關的基因中顯著富集。

????但在本文的結果部分其實只有一小部分提到了:在6072個罕見病家庭外顯子組中(包括4275例病例樣本)發現了16個gained nonsense和110個changed missense(CADD > 20分高,gnomAD頻率低(n < 10));在人工評判后,這些mnv都不是罕見疾病的原因。但是本研究中管道的應用可能會發現以前的漏診。

四、take-home message

? ? 對我而言,這篇文章的意義就是:

? ? 1、了解了MNV的phasing、calling、filtering流程

? ? 2、MNVs在遺傳?。ê币姴。┑脑\斷中作用有限,如果要分析,優先級排后面。。。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 2020年5月,gnomAD數據庫在Nature及其子刊上發了一個特刊,共7篇文章(不算評論和新聞) 特刊鏈接:h...
    Olivia阿儀_鴉雀閱讀 8,886評論 4 10
  • 使用cBioPortal進行復雜的癌癥基因組和臨床profiles整合分析(Y大寬原創,轉載需要說明) 主要來自于...
    Y大寬閱讀 74,138評論 10 127
  • 一.填空題(每題2分,共40分) 組蛋白: H3H4具有較高的保守性,H2A和H2B的保守性比較低。11nm核小體...
    木木子kinoko閱讀 2,768評論 0 3
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂有人憂愁,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,588評論 28 53
  • 人工智能是什么?什么是人工智能?人工智能是未來發展的必然趨勢嗎?以后人工智能技術真的能達到電影里機器人的智能水平嗎...
    ZLLZ閱讀 3,846評論 0 5