距離上一篇文章的解讀已經過了一年，我又有機會拿gnomAD的文章講組會文獻分享了（狗頭）（其實這篇文章六一就寫好了，但是當時要發的時候簡書在系統維護。。。過兩天就忘記提交了。。。突然今天又想起來了。。。）

本文不是對文章的直接翻譯，而是個人閱讀文章后的整理和解讀，細節之處如有遺漏可能是我覺得不影響整體理解，但如有理解偏頗之處歡迎指出問題。

《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes》 Nature Communications?

標題直譯：在125,748個人類外顯子組和15,708個人類基因組數中的多核苷酸變異景觀/圖譜

文章鏈接：https://www.nature.com/articles/s41467-019-12438-5

一、背景及概念整理

1、什么是multi-nucleotide variants (MNVs)？

? ? 單詞直譯可以理解為多核苷酸變異，文中的定義可譯為：在一個個體中存在于同一單倍型上的兩個或多個相近變異的群集。這里主要是和傳統意義上的單核苷酸變異single nucleotide variants (SNVs) 進行了區別。在Fig1.a中我們可以看到，左圖的兩個單點突變分別位于兩條染色體上，形如復合雜合子，這不是MNV；右圖展示了MNV最重要的點，指兩個點突變同時發生在同一單倍型/染色體上。另外，這里的圖就是個示例，兩個點突變之間的距離可以是≥2的，但是也不要太遠，這個概念同時也是區別于GWAS關注的LD上的SNP的，本文主要討論了距離1~2bp的MNVs。

【啊。。。因為文章具體分析了1-100bp的MNV的calling效率，所以MNV的距離限制和定義在組會上被討論好久。。。老板覺得可能是作者被reviewer問了calling效率的評估，所以補了1-100bp的所有結果，但其實本質上研究分析的只有1-2bp的MNV。。。如果還有問題可以評論留言討論或者私信討論哦！】

Figure 1.a. Definition and an example of an MNV.

2、MNV造成的影響？

? ? 這里主要舉例了兩點距離≤2bp的MNVs，因為由密碼子的變化導致氨基酸的變化是最好理解的，也是最直接影響功能的。在Fig1.b中可以看到，如果一個MNV上的兩個突變位置正好位于同一個密碼子上，他們分別以SNV形式變異時會導致一個錯義突變和同義突變，但是同時變異時，會形成一個終止密碼子，導致可能影響蛋白質功能的無義突變。（類似這樣排列組合就會有很多的氨基酸變異結果，在Result2中會給這些變化進行具體的分類和解釋。）

Figure 1.b.?Impact of MNVs in coding regions.?

? ? 當然，除了上述改變之外，還會有很多影響功能的方式和可能性，但是這這篇文章中沒有做過多的分析和解釋。如有需要，各位研究者可以具體案例具體分析。

3、對MNV的認知程度和研究基礎

? ? 根據introduction中的內容可以進行簡單總結（對應的ref研究）：

? ? MNV的發生率：MNV事件發生的頻率遠高于隨機概率（在trio WGS研究中得到），并且在人群中普遍存在（在1000G和ExAC中總結的）；每一代的germline MNV發生率，約等于SNV發生率的1-3%（trio WGS研究）。

? ? MNV的發生機制：如聚合酶zeta在DNA復制中產生的錯誤(酵母實驗)；受序列上下文的具體堿基影響（在1000G中分析得到）；取決于其位于的基因組功能域和兩個突變位點之間的距離（在trio數據中的發現）。

? ? MNV的影響：比SNV更有可能造成危害（在疾病trio中的發現）。

4、關于MNV的關鍵科學問題：

① MNVs在全基因組范圍下的分布和完整的頻率如何？

? ??除了之前基于ExAC的分析外，沒有對成千上萬個深度測序個體的整個基因組（包括非編碼區）的mnv進行分析。

②?如何在遺傳疾病分析中識別和解釋MNVs？

? ??幾乎所有現有的臨床變異注釋工具都將遺漏MNV，這可能在遺傳疾病的家族分析中導致漏診和假陽性遺傳診斷。

二、全文框架整理

? ? 基于上述背景和關鍵科學問題，結合文章不同塊面使用的不同數據集，我自己整理了如下框架便于理解：

? ? 1、如何更好的辨識和篩選出MNVs？（Result1 + Methods）

? ? 2、MNVs在外顯子組范圍內，對蛋白質功能/氨基酸變化的影響情況分布（Result2）

? ? 3、MNVs在全基因組范圍內，突變的類型、來源、頻率等分布規律，及其和基因組區域的關系（Result3-5）

? ? 4、MNVs在遺傳病（罕見?。┲械淖饔?（Discussion）

三、文章具體展開

1、如何辨識和篩選出MNVs？

? ? 這其中涉及到3個步驟：① phasing，② calling，③ filtering

① Phasing 確定單倍型，這里可以用到3種方法：

? ? 1) 只基于測序結果的read-based phasing，普遍使用于所有測序結果，無關乎樣本量；

? ? 2) 基于家系測序結果的family-based phasing，加入父母的信息能更準確的判斷變異來源從而確定單倍型情況；

? ? 3) 基于群體單倍型規律的population-based phasing，常見于GWAS研究的前序步驟（工具如SHAPEIT），常用于LD區域相關的phasing處理。

? ? 本文使用read-based的GATK HaplotypeCaller作為phasing算法工具；為了評估其表現，以trio-based的算法對應結果作為金標準。

② Calling 識別MNV：

????使用Hail這個工具(https://github.com/hail-is/hail)，利用window_by_locus這個參數調整來識別不同距離的MNVs；此外，研究只分析了常染色體。

? ? 結合上述的phasing和calling策略，文章先評估了phasing的效果和calling時適合的距離：

Result1:?當MNVs≤10bp時，read-based phasing (GATK HaplotypeCaller)表現良好。

? ??GATK HaplotypeCaller可以成功對>85%的臨近雜合子對進行單倍型分類（trio-based只能成功區分>60%）；在比較兩種方法的結果時，>99.8%的trio-based結果可以在HaplotypeCaller中被識別出來（Fig1.c）。在下圖的右側和sup-table1-2中可以看到在calling distance?≤10bp時，敏感性和精確性都可以保持較高，>10bp后出現斷崖式下降（Sup-Fig1.d）。

Figure 1.c??Graphical overview of the analysis of phasing sensitivity and specificity using trio samples from our gnomAD callset.

? ? 綜上分析，本文后續的分析中即以如下標準進行MNVs的辨識和篩選：（其中的③Filtering以quality control為主要目的）

2、MNVs在外顯子組范圍內，對蛋白質功能/氨基酸變化的影響情況分布

? ? 本段分析只用到了125,748個外顯子組數據，和≤2bp的MNVs，旨在分析單核苷酸內的MNVs的功能變化情況。

? ? 這里需要引入多個作者定義的概念（supplementary information）：

Gained nonsense: Neither of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is.?

獲得性無義突變：原來兩個SNP都不是無義突變，MNP組合起來變成了無義突變。

Rescued nonsense: at least one of the individual SNPs is a nonsense/stop-gained mutation, but the MNP is not.

被拯救的無義突變：原來兩個SNP至少有一個導致無義突變，MNP組合起來就不是無義突變了。

Gained Missense: the individual SNPs are synonymous, but the MNP results in a missense variant.

獲得性錯突變：原來兩個SNP都是同義突變，MNP組合起來變成了一個新的錯義突變。

Lost Missense: at least one of the individual SNPs is a missense variant, but the MNP is synonymous.

錯過的錯義突變：原來兩個SNP至少有一個導致錯義突變，MNP組合起來就是同義突變。

Changed Missense: at least one of the individual SNPs is a missense variant and the MNP is a new missense variant with a different resulting amino acid.

被改變的錯義突變：原來兩個SNP至少有一個導致錯義突變，MNP組合起來是全新的錯義突變。

Partially Changed Missense: The MNP is composed of two different missense variants that when considered together have the same amino acid outcome as only one of the variants (e.g. Missense A + Missense B = Missense A).

部分被改變的錯義突變：原來兩個SNP分別導致不同的錯義突變，MNP組合起來是兩者其一的錯義突變。

Unchanged: Either the outcome of the MNP is identical to that of the individual SNPs or one of the SNPs is a synonymous variant that does not change the outcome of an adjacent non-synonymous variant

不改變的突變：要么MNP的結果與單個SNP的結果相同；要么其中一個SNP是同義變異，它不會改變相鄰非同義變異的結果。

Result2：Rescued nonsense 比 Gained nonsense在（高約束性）基因中富集得更多；LoF相關的MNV注釋非常重要。

? ? 經統計，有31,575個MNVs位于同一個密碼子中，他們的突變類型分布如Fig2.a。

? ? 從功能上來說，gained / rescued nonsenses更可能影響基因的功能，所以關注到這兩類突變上來看：1633個基因攜帶gained?/ rescued nonsenses，其中包括41個與疾病相關的基因（Fig2.b)。

????有≈6%的gained nonsenses、≈20%的missense\unchanged、≈22%的rescued nonsenses，他們都是在LOEUF?decile?<20%的3941個基因中（約束性較高、較易和疾病相關的基因）；由此可見，沒有MNV注釋時，LoF (loss-of-function)注釋錯誤顯著增多（Fig2.c）。

Figure 2.?Functional impact of MNVs.

3、MNVs在全基因組范圍內，突變的類型、來源、頻率等分布規律，及其和基因組區域的關系

? ? 由于在所有≤100bp的MNVs中，有87.9%的MNV是bp=1的adjacent MNV，所以接下來的這部分的分析都是基于15,708個全基因組數據中call出來的adjacent?MNVs進行的分析。

Result3-4：adjacent MNVs的全基因組分布符合三個主要突變起源的假設，每種假設分別解釋了相當一部分MNVs。

? ? 首先，對于adjacent?MNVs的產生機制，之前的研究認為主要由3種原因導致：1) 由獨立的單點突變組合而成（顛換or轉換、CpG區域均會影響單點突變的發生率）；2)?pol-zeta導致的特定類型的DNA復制錯誤（TC>AA,GC>AA & GA>TT,GC>TT；3)?重復序列處的聚合酶滑脫事件。(Fig3.a)

Figure 3.a.?Three major categories of the mutational origin of MNVs.?

????最常見的MNV模式CA -> TG（C->T的CpG轉換Ti和A -> G的轉換Ti組合）；最不常見的MNV模式是TA -> GC（兩個非CpG顛換Tv的組合）。（Fig3.b，Sup-Fig4 c.e）下圖最右的圖可以發現有些突變來源的類型和第一個來源假設（SNV組合）并不一致，接下來換個角度關注后兩種假設。

? ? ? ? 以兩個位點分別的突變頻率是否一致來評估他們是否是同時突變的one-step MNV，統計分析發現，90.5% 的 GA-?>?TT 和 80.5% 的 GC-?>?AA （poly-zeta error的典型突變型，紫色）都是one-step MNV，顯著高于所有突變型的平均值39.9%。（重復區域的TA>AT，one-step MNV比例也很高）

? ? 關注到重復序列區域，突變類型及來源分布可以看到聚合酶滑脫事件的主要類型（AA>TT,AT>TA,TA>AT）在重復序列區域上顯著富集。

????不同的MNV模式所占比例相差很大；每種MNV模式對應的起源占比各不相同，但總的來說，83.2%的MNVs可以找到對應的起源機制之一。

Figure 4.a. Distribution of MNVs across genome.

? ? Result5：一個基因組區域的MNV密度高度依賴于周圍序列的CpG甲基化狀態

? ??接下來研究了MNV不同模式的分布在功能注釋類別之間的差異，使用了編碼序列、增強子、啟動子等13種不同的功能注釋，以及來自ENCODE的DNA甲基化注釋。

????MNV密度：在每個區域中，WX>YZ突變序列數量占原始WX序列的比例。

? ??涉及CpG-Ti相關的突變模式中，MNV密度與甲基化水平呈正相關；相反地，Non-cpg Tv 相關的突變模式以及與pol-zeta滑移相關的突變模式，MNV密度與甲基化狀態呈負相關。（Fig.4.b-c）

? ??在基因編碼序列周圍選擇了7個主要的區域注釋，計算了這些區域中可能由不同突變來源解釋的mnv的比例。在所有區域中，發現MNV信號主要由CpG-Ti所主導；Pol-zeta error的主導性次之，除了在轉錄起始區域（TSS，在這七個注釋中甲基化率最低的區域）；Non-cpg Tv和重復區域的聚合酶滑脫的比例始終低于(或幾乎等于)總信號的5%。(Fig.4.d)

Figure 4.b-d. Distribution of MNVs across genomic regions.? ?

4、MNVs在遺傳?。ê币姴。┲械淖饔?

????Discussion：MNVs對罕見疾病的診斷貢獻很少（即時用了文章的pipeline，作用也很有限）

? ? 雖然文章的背景中提到了MNV在疾病中的意義，比如在Genome Res. 2019中發現：在受影響的兒童中，de novo MNVs 在先前與發育障礙相關的基因中顯著富集。

????但在本文的結果部分其實只有一小部分提到了：在6072個罕見病家庭外顯子組中（包括4275例病例樣本）發現了16個gained nonsense和110個changed missense（CADD > 20分高，gnomAD頻率低(n < 10)）；在人工評判后，這些mnv都不是罕見疾病的原因。但是本研究中管道的應用可能會發現以前的漏診。

四、take-home message

? ? 對我而言，這篇文章的意義就是：

? ? 1、了解了MNV的phasing、calling、filtering流程

? ? 2、MNVs在遺傳?。ê币姴。┑脑\斷中作用有限，如果要分析，優先級排后面。。。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

gnomAD系列文章總結(2) -- 《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 gen...

gnomAD系列文章總結(2) -- 《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 gen...

《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes》 Nature Communications?

標題直譯：在125,748個人類外顯子組和15,708個人類基因組數中的多核苷酸變異景觀/圖譜

一、背景及概念整理

1、什么是multi-nucleotide variants (MNVs)？

2、MNV造成的影響？

3、對MNV的認知程度和研究基礎

4、關于MNV的關鍵科學問題：

① MNVs在全基因組范圍下的分布和完整的頻率如何？

②?如何在遺傳疾病分析中識別和解釋MNVs？

二、全文框架整理

三、文章具體展開

1、如何辨識和篩選出MNVs？

① Phasing 確定單倍型，這里可以用到3種方法：

② Calling 識別MNV：

Result1:?當MNVs≤10bp時，read-based phasing (GATK HaplotypeCaller)表現良好。

2、MNVs在外顯子組范圍內，對蛋白質功能/氨基酸變化的影響情況分布

Result2：Rescued nonsense 比 Gained nonsense在（高約束性）基因中富集得更多；LoF相關的MNV注釋非常重要。

3、MNVs在全基因組范圍內，突變的類型、來源、頻率等分布規律，及其和基因組區域的關系

Result3-4：adjacent MNVs的全基因組分布符合三個主要突變起源的假設，每種假設分別解釋了相當一部分MNVs。

? ? Result5：一個基因組區域的MNV密度高度依賴于周圍序列的CpG甲基化狀態

4、MNVs在遺傳?。ê币姴。┲械淖饔?

????Discussion：MNVs對罕見疾病的診斷貢獻很少（即時用了文章的pipeline，作用也很有限）

四、take-home message

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

gnomAD系列文章總結(2) -- 《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 gen...

《Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes》 Nature Communications?

標題直譯：在125,748個人類外顯子組和15,708個人類基因組數中的多核苷酸變異景觀/圖譜

一、背景及概念整理

1、什么是multi-nucleotide variants (MNVs)？

2、MNV造成的影響？

3、對MNV的認知程度和研究基礎

4、關于MNV的關鍵科學問題：

① MNVs在全基因組范圍下的分布和完整的頻率如何？

②?如何在遺傳疾病分析中識別和解釋MNVs？

二、全文框架整理

三、文章具體展開

1、如何辨識和篩選出MNVs？

① Phasing 確定單倍型，這里可以用到3種方法：

② Calling 識別MNV：

Result1:?當MNVs≤10bp時，read-based phasing (GATK HaplotypeCaller)表現良好。

2、MNVs在外顯子組范圍內，對蛋白質功能/氨基酸變化的影響情況分布

Result2：Rescued nonsense 比 Gained nonsense在（高約束性）基因中富集得更多；LoF相關的MNV注釋非常重要。

3、MNVs在全基因組范圍內，突變的類型、來源、頻率等分布規律，及其和基因組區域的關系

Result3-4：adjacent MNVs的全基因組分布符合三個主要突變起源的假設，每種假設分別解釋了相當一部分MNVs。

? ? Result5：一個基因組區域的MNV密度高度依賴于周圍序列的CpG甲基化狀態

4、MNVs在遺傳?。ê币姴。┲械淖饔?

????Discussion：MNVs對罕見疾病的診斷貢獻很少（即時用了文章的pipeline，作用也很有限）

四、take-home message

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一、背景及概念整理

1、什么是multi-nucleotide variants (MNVs)？

2、MNV造成的影響？

3、對MNV的認知程度和研究基礎

① MNVs在全基因組范圍下的分布和完整的頻率如何？

二、全文框架整理

三、文章具體展開

1、如何辨識和篩選出MNVs？

Result1:?當MNVs≤10bp時，read-based phasing (GATK HaplotypeCaller)表現良好。

2、MNVs在外顯子組范圍內，對蛋白質功能/氨基酸變化的影響情況分布

Result2：Rescued nonsense 比 Gained nonsense在（高約束性）基因中富集得更多；LoF相關的MNV注釋非常重要。

3、MNVs在全基因組范圍內，突變的類型、來源、頻率等分布規律，及其和基因組區域的關系

Result3-4：adjacent MNVs的全基因組分布符合三個主要突變起源的假設，每種假設分別解釋了相當一部分MNVs。

4、MNVs在遺傳?。ê币姴。┲械淖饔?

四、take-home message