2020-03-02 偶遇一個非常棒的網站

在學習bedtools的過程中偶遇一個非常棒的網站,就是其作者 Aaron R. Quinlan的實驗室網站http://quinlanlab.org/

bedtools這個軟件工具支持對BAM、BED、GFF/GTF、VCF等和基因組區域有關文件的intersect, merge, count, complement, and shuffle等操作。這個解釋有點抽象,不過總的來說就是一個非常棒的工具,曾老師曾經強烈推薦初學者跟著學習的。
2010年這個工具被發在了Bioinformatics上,作者當時還在美國弗吉尼亞大學醫學院,現在工作在猶他大學,他的博客有篇比較新的博文解釋他們實驗室最新發現http://quinlanlab.org/blog/2018/12/20/constrained-coding-regions.html

對基因組突變位點的解讀,我覺得非常有意思,就記錄了下來。其中有個小工具也非常棒,對bed文件等(BAM, VCF, GTF, or BED files(indexed BAMs, other files bgzipped and tabixed))用網頁工具進行IGV可視化的。https://s3.us-east-2.amazonaws.com/ccrs/ccr.html

這篇博客的一開始引用了2個歷史人物的語錄,因為翻譯的水平有限,就直接摘錄原文吧

Once in a while you get shown the light
In the strangest of places if you look at it right.

  • Jerry Garcia and Robert Hunter, Scarlet Begonias

The unseen enemy is always the most fearsome.

  • George R.R. Martin, A Clash of Kings

為什么作者一開始會引用這2個語錄呢?往后看了才明白他的意思,在博文中他先引入了一張圖后面又講到一個來自維基百科的故事。

來自http://quinlanlab.org/

在這篇博文中,作者提供了他們發表在eLife的手稿的背景和概述,題目是"A map of constrained coding regions in the human genome"。簡單地說,作者研究了從基因組聚合數據庫(GnomAD)的2.0.1版中檢測到的超過120,000個人類外顯子的遺傳變異,以揭示由于非典型變異的缺乏而受到限制的焦點編碼區(例如,在上圖所示的區域)。這些“受限編碼區”(CCR,constrained coding regions)被推斷為處于強烈的純化選擇(purifying selection)之下,并富集了已知的致病變異。也許這張CCR圖譜最耐人尋味的方面是這樣一個事實,即許多最受限制的區域位于缺乏先前疾病關聯的基因內。這些區域有望在發育障礙(developmental disorders)的背景下發現新的疾病基因。

首先是解釋人類基因組中最受限制的區域是什么?

人類遺傳學的一個長期興趣是確定我們基因組中對生命和正常發育最重要的子集。一般來說,這樣的區域應該處于最高的純化選擇之下,因此應該表現出較低的核苷酸多樣性。在蛋白質編碼基因的情況下,應特別注意對蛋白質改變(i.e., missense, stop-gain, frameshift, etc.)的strong “constraint”的variants。事實上,這個概念強調了最近的“gene-wide” constraint指標背后的動機,比如Residual Variation Intolerance Score (RVIS)和較新的probability of Loss-of-function Intolerance (pLI) score。雖然這些指標已被證明對罕見疾病的研究非常有用,但單一的、全基因的指標本質上不能描述每個蛋白質編碼基因中存在的constraint的區域差異。確定constraint的焦點區域是作者們的動機。下面是作者結合部分已發表文章的歷史、主要成果和數據文件,以及他們對未來重要研究的看法。

背景部分

作者講到2010年末的某個時候,當他正緊張地準備成立自己的研究小組時(他說自己甚至無法表達他有多害怕),他看到了一場演講,描述了NHLBI外顯子測序項目對大約6000個人類外顯子進行測序的目標。作者(可能還有其他許多人)很快意識到,他們可以利用在這些外顯子中發現的變異,從這些樣本中沒有變異的情況下推斷出處于純化選擇之下的編碼區。與才華橫溢的比爾·皮爾森進行了多次有趣的討論,將研究集中在一起。不久之后,吉姆·哈夫里拉(Jim Havrilla)加入了他的實驗室,很快就在他的博士課題中對這個想法進行深入的研究。
在接下來的8年中這個想法的核心催生了該課題組在人類基因組中受限編碼區圖譜的創建。這項工作從頭到尾都由吉姆·哈夫里拉(Jim Havrilla)領導,同時得益于布倫特·彼得森(Brent Pedersen)和瑞安·萊爾(Ryan Layer)的聰明想法、巧妙的代碼應用。

題外話:
從背景部分我們看到了一個年輕的研究員初創自己的團隊在助理和博士研究生的共同協作下奮戰了8年的一個結果。科研之路非常艱辛,但是團隊的協作總能完成最后的工作,而且幾位年輕人可以說是白手起家用公共數據完成學術研究,并有了獨到的見解,非常值得我輩學習,我們國內的博士培養很多都是類似的模式,可是真正和導師一樣為了同目標非常有興趣的進行研究工作的還是少。非常羨慕這種純粹的有意義的研究工作。這可能與很多制度問題相關,這里就不展開吐槽了。

作者研究的這個想法是基于survival bias的概念,這個概念在科學中很普遍,在二戰期間亞伯拉罕·沃爾德和統計研究小組(SRG)的工作中得到了最著名的證明。這是一個來自維基百科的故事:盟軍飛機被擊落,軍方領導層顯然想阻止飛機損耗速度。然而,金屬是稀缺的。此外,在添加金屬進一步保護飛機的同時,也會降低飛機的機動性和燃油效率。這是一個經典的優化問題--他們如何在最大化防御的同時使用最少的金屬?SRG收到了描述從他們出動歸來的數百架飛機上觀察到的彈孔圖案的數據。據說軍方領導層對這一數據的解讀是,裝甲應該放在彈孔最密集的地方(這就是我們被槍擊的地方!)。沃爾德不同意這一點。他認為,觀測到的數據是有偏差的,因為它們只來自返回(幸存)的飛機。他認為,裝甲應該放在沒有子彈的地方,因為這些地區很可能是被擊落的飛機受損的地方。換句話說,這些都是受限制的飛行區域。

就是從上面這個小故事激發了作者的idea。

作者團隊使用survival bias來識別人類基因組中的限制性(即在強烈的純化選擇下)編碼區(CCR),因為在大于12萬個人類外顯子中沒有蛋白質變化的變異很多。

關鍵性結果展示

正如手稿中詳細描述的那樣,作者將限制性編碼區確定為蛋白質編碼基因片段,在基因組聚合數據庫(GnomAD)中的120,000個外顯子中甚至沒有一個蛋白質variant 的基因。雖然gnomAD中這種變異出現的的平均密度約為每7個coding bases中包含1個,但最受限制的編碼區(例如,在第99個百分位數或以上)通常缺少超過100個堿基的蛋白質改變variant 。例如,下面的紅色區域反映了我們在KCNQ2和TNNT2中確定的第95個百分位數和更高的CCR。

來自https://elifesciences.org/articles/46922

作為一個陽性對照證明,最受限制的編碼區富集了ClinVar中已知的罕見人類疾病表型背后的致病變異。例如,最受限制的區域之一是在SCN8A中沒有蛋白質改變變異的274編碼堿基對區域。組成該CCR的4個外顯子編碼大部分離子運輸結構域。下面是使用IGV.js構建的CCR瀏覽器的屏幕截圖。圖像有點難以辨認,因此可以通過此鏈接直接查看該區域。暗紅色區域反映第99個百分位數或以上的CCR。

來自https://s3.us-east-2.amazonaws.com/ccrs/ccr.html

作者發現CCR補充了其他不同的優先排序工具,用于解釋罕見疾病背景下的de novo突變。他們認為,位于最受限(例如,第99個百分位數或更高)編碼區的de novo突變可能與發育表型有關。事實上,雖然它沒有被寫入手稿,但在他們團隊最近對早期嬰兒癲癇性腦病的研究中發現的幾乎所有致病突變都位于CCR內,位于第95個百分位數或以上(大多數在第99個百分位數以上)。

因此,作者認為,在發育障礙的背景下,位于regions of the highest constraint內的de novo突變特別令人感興趣。然而,一個重要的警告是,不能簡單地忽略less constrained regions的突變,因為許多已知的致病等位基因位于表現密集變異的區域(例如,BRCA1)。

另一個有趣的結果是,觀察到物種內的constraint往往與物種間的conservation measurements相輔相成;也就是說,conservation measurements并不總是預測物種內的constraint。此外,我們還確定了具有最大限制的蛋白質結構域家族的子集。從高水平上看,這些結構域通常與DNA相互作用或修飾染色質。關于這些領域中的constraint的大部分細節在Boukas等人的預印本文章中有更詳細講述。

是否會提示新的致病基因呢?

考慮到已知致病變異的高CCRs的富集,最令作者和我們興奮的結果是許多高度(>99%)受限制的區域位于缺乏先前疾病關聯的基因內。當然,其中一些是假陽性。然而,可以預想假設其中一些區域反映了強烈的凈化選擇,當它們發生突變時,會導致發育表型,甚至胚胎死亡。

作者說他們很高興在未來的研究中探索這些區域,并希望受限編碼區的地圖的繪制將有助于指導我們未來的研究,并使罕見疾病研究中的突變解釋成為可能。此外已經有不少報道已經證實了一想法(參見Jensen et al, Wray et al, and Boukas et al)!也是我們可以研究的熱點。

作者強調他們的識別受限編碼區(CCRs)的方法的優雅之處在于它非常簡單。然而,它故意非常嚴格,因為他們希望將誤報降至最低。誠然,基于gnomAD中存在的單個改變蛋白質的variant而“破壞”constrained regions可能會導致假陰性;也就是說,被單個variant破壞的更大的constrained regions。我們強調,我們創建的map揭示了dominant model下的constrained regions,而不是很適合于recessive constraint。最后,盡管gnomAD很強大,但它主要由歐洲血統的個體variation而成。因此,我們的map模型在多大程度上恰當地模擬了其他人種中的constrained regions,目前還不清楚。

在這些年里,大量的人類基因組將被測序。此外,由于gnomAD和其他努力,人們對人類基因組學中的數據共享做出了令人興奮的commitment。因此,作者希望這項研究,以及Kaitlin Samocha的類似想法,能夠啟動新的方法來分離我們基因組的關鍵區域。預計,來自更多人類基因組的變異將提高預測處于強烈純化選擇下的區域的分辨率和準確性。同樣,多虧了gnomAD、Genomics England、TopMED和Centers for Common Disease Genomics,他們正在迅速分析數據集,包括超過10萬個基因組的全基因組變異。這些數據集蘊含著一個有趣的前景,即在我們基因組的非編碼區對人類的constraint進行建模。

最后作者強調:我們將繼續使用未來版本的gnomAD以及其他資源來更新我們的CCR map。我們也期待著將出現的新方法,并渴望繼續我們在這一領域的研究。敬請關注。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容