gnomAD系列文章總結(1) -- Flagship paper -- 《The mutational constraint spectrum quantified from variatio...

2020年5月,gnomAD數據庫在Nature及其子刊上發了一個特刊,共7篇文章(不算評論和新聞)

特刊鏈接:https://www.nature.com/immersive/d42859-020-00002-x/index.html

????gnomAD的前身是Exome Aggregation Consortium (ExAC),經過這么幾年的積累,數據量已經提升到了15,708人的全基因組測序(WGS)和125,748人的全外顯子組測序(WES),觀察到的小型遺傳變異(單核苷酸變異SNV和短插入/缺失變異Indel)也從7.4 million上升到了241 million。


(我自己是很想全部看完并做好筆記分享出來的,但是精讀起來還是需要些時間精力的,所以借組會分享文獻的機會,先從最主要的這篇文章開始看起吧~以下根據自己的理解進行了梳理,有偏差和錯誤的地方歡迎批評指正!本文圖片來自文章、或自己制作、或網絡來源見水印)

Flagship paper -- 《The mutational constraint spectrum quantified from variation in 141,456 humans》Nature

標題直譯:從141,456人的突變中量化得到的突變約束譜

一、背景及概念整理

1、什么是LoF突變?

LoF = loss-of-function 功能喪失,本文和以往的認知主要將以下3種突變認為成是LoF:

① Stop-gained:在外顯子區域內引入提前的終止子(nonsense,無義突變的一種)


②?Frameshift:移碼突變,使得轉錄閱讀框產生移位的突變,從而使得后續轉錄翻譯的產物產生大規模變化,一般是由微小的indel引起。


③?Splice:剪接突變,蛋白質編碼轉錄本中的每個外顯子的左右有兩個關鍵的剪接位點,該位置的核苷酸發生改變,可能導致錯誤的剪接。(正常剪接見下圖)


2、為什么要關注LoF突變?

????一般我們想要了解一個基因的功能,會將破壞性突變引入基因,或者對該基因進行敲除,繼而觀察和測量突變后的模式生物或人類細胞系,分析突變對細胞或生物的生理表型存在怎樣的影響。因為科研倫理和技術限制,我們不能直接對人類進行功能缺失突變的實驗和大規模研究,即不能隨意在人類中進行基因編輯。

? ? 所以,LoF突變作為天然存在于人類中的破壞性突變,通過對大規模的LoF突變及人類表型進行觀察,也可以總結出基因的功能和特性。


3、大規模評估LoF突變需要面臨的挑戰?

? ? 一般來說,LoF突變的頻率非常低,而且絕大部分都是有害的;另外,由于mapping、genotyping、嵌合體情況、注釋錯誤等等,會增加LoF突變被發現的假陽性(Science 2012 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3299548/

? ? 為了在全基因組范圍內系統地發現LoF突變,我們需要大量樣本的測序數據(WES或WGS),以及仔細的篩選流程以去除假陽性,來解決上述兩個問題。

4、什么是constraint(約束)?

? ? 這個話題可以認為是編碼區變異的自然選擇分析,約束可以認為是某個區域的突變受到了限制,即突變數的減少、突變頻率很低。

????這里的理論基礎主要是“幸存者偏倚”。舉個我記不清國家和名字的例子,二戰時期某國的戰斗機被頻頻擊中,為了提高戰斗機的抗擊打能力,軍隊對返航的戰斗機進行了觀察和統計,記錄了所有被擊中的彈痕位置,正在他們準備加固被擊中位置的時候,一位數學家提出了:沒有發現彈痕的位置更需要被加固,因為被回收的飛機受到擊打后還足以堅持飛回軍營,但是有的飛機是被就地擊落或無法返回,這些彈痕位置是從返回飛機上看不到的。經此提醒,可以發現在返回飛機上觀察不到的彈痕位置更集中于駕駛艙和發動機這些關鍵部位。類比一下,我們可以認為駕駛艙和發動機是戰斗機上的“受約束區域”。


? ? 在變異與自然選擇原則的關系中,一個重要假設就是:自然選擇清除有害變異。

????關于這個假設,我們已經可以觀察到的是:有的基因或區域上受到了明顯的約束,即變異數非常的少;或者等位基因頻率有明顯的偏倚,如在不同群體間的SNP頻率有明顯差異。

? ? 評估約束程度或者受選擇程度的建模方法,現在比較常用的是比較“真實的觀察值observation”和“通過某些方法建模得到的期望值expectation”。同義突變 synonymous variation作為沒有功能變化的突變,一般不受到選擇影響,所以同義突變相關的值某種程度上可以作為參考值或基線數據。

5、過往研究及限制

? ? 眾所周知且適用度很廣的就是基于ExAC的60,706人全外數據建立的模型:pLI(The probability of intolerance to heterozygous pLoF variation),pLI將足夠長度的基因分為:pLI≥0.9,LoF突變不耐受基因,共3230個基因;pLI ≤0.1,LoF突變耐受基因,共10,374個基因。這些基因列表和評分結果可以在網上獲得,很容易地注釋到需要用的數據中。(Nature 2016 原文鏈接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5018207/#SD1

? ? 另一篇文章也是利用了ExAC的數據,在罕見的蛋白質截斷變異(protein truncating variants,PTVs)中估計了LoF變異的選擇系數,發現最強的選擇富集于敲除后小鼠胚胎致死的基因、假定的細胞必需基因、孟德爾疾病基因和轉錄調節因子。(Nat Genet. 2017?https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5618255/?)

? ? 過去研究的限制在于:

? ? ① pLI是一個二分模型。可以大致認為它能較好得將單倍劑量不足的基因(下圖左)和失活耐受的基因(下圖右)區分出來,但是中間程度的比較難被辨識出來。

? ? ② pLI的模型只適用于足夠長度的基因。應該是因為該模型使用的算法是:expectation-maximization algorithm (我沒仔細看。。。),可分析的基因須有一定長度才可計算,對于長度較短的基因可能會有遺漏和錯誤評估(吧)。

? ? ③ 關于選擇的研究,只在部分確定的PTVs上進行了研究,并非所有LoF變異以及所有變異,突變種類有限。

二、本文如何面對挑戰、突破限制?(全文框架)

1、碩大的樣本量:在125,748人的WES和15,708人的WGS中識別出了可能的LoF變異(predicted LoF variants, pLoF)

2、仔細的篩選:嚴格的樣本質控 + 自定義的隨機森林過程-突變QC + pLoF過濾包(LOFTEE) + 部分分析進行了進一步的過濾和人工校正

3、優化的預測模型:loss-of-function observed/expected upper bound fraction(LOEUF):連續模型,對基因長度無特殊要求

4、模型效果驗證,生物學特性,疾病病原學分析

三、文章具體展開

1、A high-quality catalogue of variation (就是樣本和突變質控)

? ? 嚴格的樣本質控主要刪除了:各種測序質量指標較低的樣品;二級或近親屬的樣本;不充分同意發布數據的樣本;已知患有嚴重兒童期發病疾病的人以及他們的直系親屬。

? ? 突變質控的亮點是隨機森林質控過程,這里具體不做解釋了,有興趣的可以仔細研究。

? ? 最后保留了125,748人的WES,15,708人的WGS,分別有14.9million和229.9million的小突變。人群分類結果用UMAP的形式展示了出來,可分為6個global+8個sub-continental ancestries,共14個祖源類型。


突變分布及飽和度概覽:類似2016年ExAC的文章,對不同類型突變的MAPS值、觀察到突變的預期比例、數量等進行了簡單分析。

單核苷酸可變調整比例(MAPS)值越高,表示較低頻率變體越豐富,表明危害性越大。低頻率突變在pLoF類突變中富集,這表明其更高的危害性。

CpG的轉換比非CpG的轉換和顛換更趨于飽和(即可預測到的突變~60%及以上都被觀察到了),除了受選擇的pLoF或低甲基化區域(5 ‘ UTR)較低。意味著還有很多突變是沒有被觀察到的,可能是受到選擇的


2、Identifying loss-of-function variants (重點是LoF突變篩選的概念和流程)

? ? 文中定義了LoF突變(上文背景中提過了),對用一般注釋工具注釋完并篩選出的候選LoF突變,利用作者自己開發的 loss-of-function transcript effect estimator (LOFTEE)工具包進行了進一步篩選,這個工具主要是會移除可以避免無義衰變的突變,比如在轉錄終端截斷的突變(我猜可能對蛋白質影響不大)或最后不影響剪接的剪接突變(rescued splice variants,我猜是這個意思)。


? ? LOFTEE的效果評估:
????盡管沒有使用頻率信息,這種方法保留了罕見的、可能有害的變異和報道過的致病變異(左)。
????該方法過濾了一些潛在功能變體(粉色),顯示出與錯義變體一致的頻譜。(右)


????經過LOFTEE篩選后,保留了443,769個高可信度變異,其中413,097屬于16,694個基因的規范轉錄本上,以及一組在基本剪接位點之外的假定剪接變異。作者還根據以下步驟做了一個gene level的pLoF度量,確定了2636個高質量突變@1815個純合雙等位型LoF耐受基因(這部分基因在后面有用)(更正:原來對biallelic理解有偏差,不是純合,是雙等位基因的意思,就是這個突變只有A\T兩種等位基因型;另一個詞是multiallelic-多等位基因的,就是這個突變有A\T\G\...等多種等位基因型)

3、The LoF intolerance of human genes (這段其實講了兩個模型。。。)

第一個模型:優化的突變預測模型

????在過去的研究中提供了預測基因上發生突變數量的模型(Nat Genet. 2014的《A framework for the interpretation of?de novo?mutation in human disease》鏈接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4222185/),本文中作者加入了甲基化(CpG突變率)校正、堿基水平覆蓋度校正、LOFTEE這三個因素到模型中,對模型進行了優化,用來預測在中性選擇下的突變預測值(expected)。

????每個基因預期變異數的中位數為17.9,并發現72.1%的基因有超過10個變異數(可以歸類為最受限的基因)。另外可以看到樣本量對預測值和觀測值都有很大的影響,以ExAC的樣本量僅可以預測到13.2(中位數)和 62.8%受限基因。


第二個模型:Loss-of-function Observed/Expected Upper bound Fraction (LOEUF)

? ? 利用第一個模型計算出的期望值作為Expected,可以發現,每個基因的O/E比值的分布不是二分的,而是連續的(左);LOEUF是該比值90%置信區間的上界(右)。(為什么是90%?我猜是這個值可以將基因數量分得更平均)這個方法的一大優勢是也可以識別較短長度的基因,舉個例子:一個短基因(observed?=?0, expected?=?2; LOEUF?=?1.34) ,一個長基因(observed?=?0, expected?=?100; LOEUF?=?0.03),他們的LOEUF差別還是很大的。


? ? 后續分析中,作者將19,197個基因分成十分位數,每十分位數大約有1,920個基因,按每個十分位數中的基因的均值/箱線圖來進行分析,顏色和上圖的紅→灰對應。首先簡單的可以看到:
????在第一個LOEUF十分位數的基因中:pLoF突變十分罕見,即觀測到的概率很低(左);聚集了以前表現為高pLI的基因(中);
????在最后一個LOEUF十分位數的基因中:包含了最多的純合LoF耐受基因(右)。

????由此可推測,LOEUF十分位數的基因分組,從左至右,由“不耐失活”→“相對耐失活”。

4、Validation of the LoF-intolerance score (和經過實驗驗證的知識庫進行比較驗證,反正效果好就對了~)

????a. 發現LOEUF符合已知基因集的預期分布:已知的單倍劑量不足基因中pLoF突變是非常少的;而嗅覺受體是相對不受約束的;具有已知常染色體隱性遺傳機制的基因位于分布的中間,對雜合破壞變異的選擇往往存在但較弱。

????b. LOEUF與另一篇系列文章中發現的6735個罕見的常染色體缺失結構變異重疊蛋白編碼外顯子的發生呈正相關

????c. 在小鼠雜合缺失后具有胚胎致死同源基因的389個基因中,我們發現與剩余的18808個基因相比,LOEUF得分更低。

????d. CRISPR篩選所鑒定的對人類細胞存活至關重要的678個基因(與18,519個背景基因相比)在一般人群中缺少LoF變異,而777個非至關重要的基因則更有可能不受限制


5 & 6、Biological properties of constraint &?Constraint informs disease aetiologies?

左a. LOEUF與蛋白相互作用網絡中的基因連接程度和功能表征相關。

左b. 在基因型-組織表達(GTEx)項目中,受限基因更有可能在38個組織中廣泛表達,且平均表達量較高,與之前的結果一致。

右a.?5305 case - 2179 control 的智力殘疾或發育障礙患者研究,在LOEUF最constrained的第一個十分位基因組中,case中的denovo pLoF的突變率比control高出了15倍;第二個十分位組中稍微增高了2.9倍。

右b.?盡管pLoF變異非常罕見,但約束基因中其他頻率更高的變異也可能是有害的,包括其他編碼或調控變異的影響。在對UK Biobank和其他大規模全基因組關聯研究(GWAS)中658個性狀關聯結果的遺傳力劃分分析中,我們發現基因附近有大量的常見變異關聯,這些關聯與許多性狀的LOEUF十分位數線性相關。


? 另外,Fig 4c 和 Fig 5c其實在其他的Companion papers中有具體的分析和結論,這里就先不具體展開了。

四、研究意義與展望

? ? gnomAD這個數據集中大量的發現,表明了human ‘knockout’ project在不久將來的可行性和可觀的價值。這個project就是指系統地嘗試發現所有人類蛋白編碼基因在雜合子或純合子狀態下功能性破壞突變的表型變化。

? ? 而且在現有的樣本量下,我們還沒有觀察到人類外顯子組中所有可能的變體,即這些突變遠遠沒有達到飽和。更大的樣本量和祖先多樣性的增加,將有利于繪制一個全面的人類基因組突變地圖,直接聯系基因破壞變異與人類生物學。

(原文的討論部分主要都是文字,懶得具體翻譯了,提取出了幾句我自己覺得比較畫大餅的話總結一下 0.0)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。