距離上一篇文章的解讀已經過了一年,我又有機會拿gnomAD的文章講組會文獻分享了(狗頭)(其實這篇文章六一就寫好了,但是當時要發的時候簡書在系統維護。。。過兩天就忘記提交了。。。突然今天又想起來了。。。)
本文不是對文章的直接翻譯,而是個人閱讀文章后的整理和解讀,細節之處如有遺漏可能是我覺得不影響整體理解,但如有理解偏頗之處歡迎指出問題。
《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes》 Nature Communications?
標題直譯:在125,748個人類外顯子組和15,708個人類基因組數中的多核苷酸變異景觀/圖譜
文章鏈接:https://www.nature.com/articles/s41467-019-12438-5
一、背景及概念整理
1、什么是multi-nucleotide variants (MNVs)?
? ? 單詞直譯可以理解為多核苷酸變異,文中的定義可譯為:在一個個體中存在于同一單倍型上的兩個或多個相近變異的群集。這里主要是和傳統意義上的單核苷酸變異single nucleotide variants (SNVs) 進行了區別。在Fig1.a中我們可以看到,左圖的兩個單點突變分別位于兩條染色體上,形如復合雜合子,這不是MNV;右圖展示了MNV最重要的點,指兩個點突變同時發生在同一單倍型/染色體上。另外,這里的圖就是個示例,兩個點突變之間的距離可以是≥2的,但是也不要太遠,這個概念同時也是區別于GWAS關注的LD上的SNP的,本文主要討論了距離1~2bp的MNVs。
【啊。。。因為文章具體分析了1-100bp的MNV的calling效率,所以MNV的距離限制和定義在組會上被討論好久。。。老板覺得可能是作者被reviewer問了calling效率的評估,所以補了1-100bp的所有結果,但其實本質上研究分析的只有1-2bp的MNV。。。如果還有問題可以評論留言討論或者私信討論哦!】
2、MNV造成的影響?
? ? 這里主要舉例了兩點距離≤2bp的MNVs,因為由密碼子的變化導致氨基酸的變化是最好理解的,也是最直接影響功能的。在Fig1.b中可以看到,如果一個MNV上的兩個突變位置正好位于同一個密碼子上,他們分別以SNV形式變異時會導致一個錯義突變和同義突變,但是同時變異時,會形成一個終止密碼子,導致可能影響蛋白質功能的無義突變。(類似這樣排列組合就會有很多的氨基酸變異結果,在Result2中會給這些變化進行具體的分類和解釋。)
? ? 當然,除了上述改變之外,還會有很多影響功能的方式和可能性,但是這這篇文章中沒有做過多的分析和解釋。如有需要,各位研究者可以具體案例具體分析。
3、對MNV的認知程度和研究基礎
? ? 根據introduction中的內容可以進行簡單總結(對應的ref研究):
? ? MNV的發生率:MNV事件發生的頻率遠高于隨機概率(在trio WGS研究中得到),并且在人群中普遍存在(在1000G和ExAC中總結的);每一代的germline MNV發生率,約等于SNV發生率的1-3%(trio WGS研究)。
? ? MNV的發生機制:如聚合酶zeta在DNA復制中產生的錯誤(酵母實驗);受序列上下文的具體堿基影響(在1000G中分析得到);取決于其位于的基因組功能域和兩個突變位點之間的距離(在trio數據中的發現)。
? ? MNV的影響:比SNV更有可能造成危害(在疾病trio中的發現)。
4、關于MNV的關鍵科學問題:
① MNVs在全基因組范圍下的分布和完整的頻率如何?
? ??除了之前基于ExAC的分析外,沒有對成千上萬個深度測序個體的整個基因組(包括非編碼區)的mnv進行分析。
②?如何在遺傳疾病分析中識別和解釋MNVs?
? ??幾乎所有現有的臨床變異注釋工具都將遺漏MNV,這可能在遺傳疾病的家族分析中導致漏診和假陽性遺傳診斷。
二、全文框架整理
? ? 基于上述背景和關鍵科學問題,結合文章不同塊面使用的不同數據集,我自己整理了如下框架便于理解:
? ? 1、如何更好的辨識和篩選出MNVs?(Result1 + Methods)
? ? 2、MNVs在外顯子組范圍內,對蛋白質功能/氨基酸變化的影響情況分布(Result2)
? ? 3、MNVs在全基因組范圍內,突變的類型、來源、頻率等分布規律,及其和基因組區域的關系(Result3-5)
? ? 4、MNVs在遺傳病(罕見?。┲械淖饔?(Discussion)
三、文章具體展開
1、如何辨識和篩選出MNVs?
? ? 這其中涉及到3個步驟:① phasing,② calling,③ filtering
① Phasing 確定單倍型,這里可以用到3種方法:
? ? 1) 只基于測序結果的read-based phasing,普遍使用于所有測序結果,無關乎樣本量;
? ? 2) 基于家系測序結果的family-based phasing,加入父母的信息能更準確的判斷變異來源從而確定單倍型情況;
? ? 3) 基于群體單倍型規律的population-based phasing,常見于GWAS研究的前序步驟(工具如SHAPEIT),常用于LD區域相關的phasing處理。
? ? 本文使用read-based的GATK HaplotypeCaller作為phasing算法工具;為了評估其表現,以trio-based的算法對應結果作為金標準。
② Calling 識別MNV:
????使用Hail這個工具(https://github.com/hail-is/hail),利用window_by_locus這個參數調整來識別不同距離的MNVs;此外,研究只分析了常染色體。
? ? 結合上述的phasing和calling策略,文章先評估了phasing的效果和calling時適合的距離:
Result1:?當MNVs≤10bp時,read-based phasing (GATK HaplotypeCaller)表現良好。
? ??GATK HaplotypeCaller可以成功對>85%的臨近雜合子對進行單倍型分類(trio-based只能成功區分>60%);在比較兩種方法的結果時,>99.8%的trio-based結果可以在HaplotypeCaller中被識別出來(Fig1.c)。在下圖的右側和sup-table1-2中可以看到在calling distance?≤10bp時,敏感性和精確性都可以保持較高,>10bp后出現斷崖式下降(Sup-Fig1.d)。
? ? 綜上分析,本文后續的分析中即以如下標準進行MNVs的辨識和篩選:(其中的③Filtering以quality control為主要目的)
2、MNVs在外顯子組范圍內,對蛋白質功能/氨基酸變化的影響情況分布
? ? 本段分析只用到了125,748個外顯子組數據,和≤2bp的MNVs,旨在分析單核苷酸內的MNVs的功能變化情況。
? ? 這里需要引入多個作者定義的概念 (supplementary information):
Gained nonsense: Neither of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is.?
獲得性無義突變:原來兩個SNP都不是無義突變,MNP組合起來變成了無義突變。
Rescued nonsense: at least one of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is not.
被拯救的無義突變:原來兩個SNP至少有一個導致無義突變,MNP組合起來就不是無義突變了。
Gained Missense: the individual SNPs are synonymous, but the MNP results in a missense variant.
獲得性錯突變:原來兩個SNP都是同義突變,MNP組合起來變成了一個新的錯義突變。
Lost Missense: at least one of the individual SNPs is a missense variant, but the MNP is synonymous.
錯過的錯義突變:原來兩個SNP至少有一個導致錯義突變,MNP組合起來就是同義突變。
Changed Missense: at least one of the individual SNPs is a missense variant and the MNP is a new missense variant with a different resulting amino acid.
被改變的錯義突變:原來兩個SNP至少有一個導致錯義突變,MNP組合起來是全新的錯義突變。
Partially Changed Missense: The MNP is composed of two different missense variants that when considered together have the same amino acid outcome as only one of the variants (e.g. Missense A + Missense B = Missense A).
部分被改變的錯義突變:原來兩個SNP分別導致不同的錯義突變,MNP組合起來是兩者其一的錯義突變。
Unchanged: Either the outcome of the MNP is identical to that of the individual SNPs or one of the SNPs is a synonymous variant that does not change the outcome of an adjacent non-synonymous variant
不改變的突變:要么MNP的結果與單個SNP的結果相同;要么其中一個SNP是同義變異,它不會改變相鄰非同義變異的結果。
Result2:Rescued nonsense 比 Gained nonsense在(高約束性)基因中富集得更多;LoF相關的MNV注釋非常重要。
? ? 經統計,有31,575個MNVs位于同一個密碼子中,他們的突變類型分布如Fig2.a。
? ? 從功能上來說,gained / rescued nonsenses更可能影響基因的功能,所以關注到這兩類突變上來看:1633個基因攜帶gained?/ rescued nonsenses,其中包括41個與疾病相關的基因(Fig2.b)。
????有≈6%的gained nonsenses、≈20%的missense\unchanged、≈22%的rescued nonsenses,他們都是在LOEUF?decile?<20%的3941個基因中(約束性較高、較易和疾病相關的基因);由此可見,沒有MNV注釋時,LoF (loss-of-function)注釋錯誤顯著增多(Fig2.c)。
3、MNVs在全基因組范圍內,突變的類型、來源、頻率等分布規律,及其和基因組區域的關系
? ? 由于在所有≤100bp的MNVs中,有87.9%的MNV是bp=1的adjacent MNV,所以接下來的這部分的分析都是基于15,708個全基因組數據中call出來的adjacent?MNVs進行的分析。
Result3-4:adjacent MNVs的全基因組分布符合三個主要突變起源的假設,每種假設分別解釋了相當一部分MNVs。
? ? 首先,對于adjacent?MNVs的產生機制,之前的研究認為主要由3種原因導致:1) 由獨立的單點突變組合而成(顛換or轉換、CpG區域均會影響單點突變的發生率);2)?pol-zeta導致的特定類型的DNA復制錯誤(TC>AA,GC>AA & GA>TT,GC>TT;3)?重復序列處的聚合酶滑脫事件。(Fig3.a)
????最常見的MNV模式CA -> TG(C->T的CpG轉換Ti和A -> G的轉換Ti組合);最不常見的MNV模式是TA -> GC(兩個非CpG顛換Tv的組合)。(Fig3.b,Sup-Fig4 c.e)下圖最右的圖可以發現有些突變來源的類型和第一個來源假設(SNV組合)并不一致,接下來換個角度關注后兩種假設。
? ? ? ? 以兩個位點分別的突變頻率是否一致來評估他們是否是同時突變的one-step MNV,統計分析發現,90.5% 的 GA-?>?TT 和 80.5% 的 GC-?>?AA (poly-zeta error的典型突變型,紫色)都是one-step MNV,顯著高于所有突變型的平均值39.9%。(重復區域的TA>AT,one-step MNV比例也很高)
? ? 關注到重復序列區域,突變類型及來源分布可以看到聚合酶滑脫事件的主要類型(AA>TT,AT>TA,TA>AT)在重復序列區域上顯著富集。
????不同的MNV模式所占比例相差很大;每種MNV模式對應的起源占比各不相同,但總的來說,83.2%的MNVs可以找到對應的起源機制之一。
? ? Result5:一個基因組區域的MNV密度高度依賴于周圍序列的CpG甲基化狀態
? ??接下來研究了MNV不同模式的分布在功能注釋類別之間的差異,使用了編碼序列、增強子、啟動子等13種不同的功能注釋,以及來自ENCODE的DNA甲基化注釋。
????MNV密度:在每個區域中,WX>YZ突變序列數量占原始WX序列的比例。
? ??涉及CpG-Ti相關的突變模式中,MNV密度與甲基化水平呈正相關;相反地,Non-cpg Tv 相關的突變模式以及與pol-zeta滑移相關的突變模式,MNV密度與甲基化狀態呈負相關。(Fig.4.b-c)
? ??在基因編碼序列周圍選擇了7個主要的區域注釋,計算了這些區域中可能由不同突變來源解釋的mnv的比例。在所有區域中,發現MNV信號主要由CpG-Ti所主導;Pol-zeta error的主導性次之,除了在轉錄起始區域(TSS,在這七個注釋中甲基化率最低的區域);Non-cpg Tv和重復區域的聚合酶滑脫的比例始終低于(或幾乎等于)總信號的5%。(Fig.4.d)
4、MNVs在遺傳?。ê币姴。┲械淖饔?
????Discussion:MNVs對罕見疾病的診斷貢獻很少(即時用了文章的pipeline,作用也很有限)
? ? 雖然文章的背景中提到了MNV在疾病中的意義,比如在Genome Res. 2019中發現:在受影響的兒童中,de novo MNVs 在先前與發育障礙相關的基因中顯著富集。
????但在本文的結果部分其實只有一小部分提到了:在6072個罕見病家庭外顯子組中(包括4275例病例樣本)發現了16個gained nonsense和110個changed missense(CADD > 20分高,gnomAD頻率低(n < 10));在人工評判后,這些mnv都不是罕見疾病的原因。但是本研究中管道的應用可能會發現以前的漏診。
四、take-home message
? ? 對我而言,這篇文章的意義就是:
? ? 1、了解了MNV的phasing、calling、filtering流程
? ? 2、MNVs在遺傳?。ê币姴。┑脑\斷中作用有限,如果要分析,優先級排后面。。。