相信多倍體(polyploid)對于生信人的讀者來說不會(huì)陌生。一般意義上認(rèn)為,多倍體和基因組倍增(whole genome duplication)的涵義是相同的。這里的重點(diǎn)是古代多倍體(paleo-polyploid)。提到這個(gè)名詞,大家似乎最先想到的都是植物。一來是因?yàn)椴簧僦参锞褪钱?dāng)代多倍體,比如三倍體無籽西瓜、八倍體小黑麥等等,都是大家餐桌上的常客。二來是因?yàn)樵谥参镞M(jìn)化過程中出現(xiàn)的多次基因組加倍事件。按照目前的一般認(rèn)識(shí),所有被子植物中的祖先都曾發(fā)生過至少兩次基因組倍增(Jiao et al., 2011)。之所以是古多倍體,是因?yàn)楸姸啾对龅幕颍╣ene duplicate;duplicated gene)都在進(jìn)化中丟掉了,植物也二倍體化了(diploidized)。再后來,基因組倍增的好戲還在不同的植物中輪番上演,不論是擬南芥這樣的模式植物,還是水稻、玉米這些主食,再到白菜、地瓜等重要蔬菜,抑或蘭花、玫瑰一類的觀賞花卉,其基因組都與(多次)全基因組倍增事件緊密相連。說多倍體和古多倍體研究是植物基因組學(xué)最重要的課題之一毫不為過。然而,同植物界截然不同的是,這一現(xiàn)象在動(dòng)物界和其他生物中較為少見。因此,很多人把多倍體看做植物的“專利”。
植物中的古多倍體(paleopolyploid)。圖片來自https://genomevolution.org/wiki/index.php/Whole_genome_duplication
由圖中可見,在歷史上,經(jīng)典模式植物擬南芥至少發(fā)生過五次基因組加倍。關(guān)于植物古多倍體的報(bào)道可以看看復(fù)旦大學(xué)戚繼和馬紅課題組的最新研究論文(Ren et al., 2018)以及植物所焦元年老師撰寫的專題點(diǎn)評(Jiao, 2018)。
今年四月,來自茫茫戈壁環(huán)繞之中的美國亞利桑那大學(xué)(University of Arizona)的Michael Barker團(tuán)隊(duì)的最新的一項(xiàng)研究表明,在昆蟲的進(jìn)化過程中,曾經(jīng)發(fā)生過至少18次全基因組倍增事件(Li et al., 2018)。昆蟲(insects),也被稱作六足類(Hexapods),其在動(dòng)物界乃至整個(gè)生物界的重要地位就不用多說了。昆蟲綱(或者按照NCBI Taxonomy數(shù)據(jù)庫的講法,昆蟲亞門)是目前已知所有生物里物種最多的綱。這一研究的橫空出世,在小編看來,基本上標(biāo)志著曾經(jīng)屬于植物界的基因組倍增的特權(quán)被全面剝奪。
讓我們來看看這項(xiàng)研究是怎么做到的。簡單地說,作者們應(yīng)用的主要是針對基因年齡(gene age)進(jìn)行的分析。本文作者所計(jì)算基因年齡所采用的標(biāo)準(zhǔn)是同義核苷酸替換(substitutions per synonymous site),業(yè)內(nèi)一般簡稱為ds或ks(關(guān)于這一內(nèi)容可以參看生信人不久前的推送:dNdS與KaKs的關(guān)系,你搞清了嗎?),由于是同義位點(diǎn),其突變不會(huì)產(chǎn)生氨基酸的變化,大體上可以認(rèn)為對蛋白沒有什么影響,也就是說密碼子同義位點(diǎn)的變化完全是隨著時(shí)間推移突變積累的產(chǎn)物。粗略地看,ks基本上和時(shí)間呈線性關(guān)系,故常用來作為推算基因年齡的指標(biāo)。其基本思想是,如果在以前發(fā)生了基因組倍增事件,換言之就是瞬間整個(gè)基因組的基因翻了一般,那么如果到今時(shí)今日依然有相當(dāng)數(shù)量的基因保留下來,所以如果基因組內(nèi)所有的基因的年齡在基因年齡,也就是ks,上反應(yīng)出來,那些古代多倍體事件的產(chǎn)物就會(huì)形成一個(gè)峰(ks peak)。如果這一尖峰足夠得尖,就可以認(rèn)為在進(jìn)化里的某個(gè)時(shí)期發(fā)生過全基因組加倍事件(古多倍體paleo-polyploid)。而如果我們知道每單位時(shí)間(比如每百萬年)內(nèi)同義核苷酸所積累的突變,那么就可以根據(jù)ks進(jìn)一步推算基因組加倍事件所發(fā)生的年代距今有多遠(yuǎn)。其最為可歌可泣的精妙之處就在于能夠在沒有基因組序列的情況下借助轉(zhuǎn)錄組序列進(jìn)行古多倍體的推斷。
本文作者分析了27個(gè)昆蟲基因組和128個(gè)昆蟲轉(zhuǎn)錄組。作者用運(yùn)了嚴(yán)密復(fù)雜的生物信息學(xué)方法詳細(xì)計(jì)算、比較了種內(nèi)和中間的基因的ks分布。最終找到了18次全基因組加倍的證據(jù)和6次大規(guī)模基因加倍(大概也可以看做低可信度的全基因組加倍,小編注)的證據(jù)。
此外,作者還根據(jù)功能的信息,對不同方式加倍生成的基因(多說一句,除了全基因組加倍,植物基因組內(nèi)還有大量通過其它加倍方式生成的基因,比如串聯(lián)加倍基因,隨機(jī)加倍基因等)進(jìn)行了PCA聚類分析,并發(fā)現(xiàn)全基因組加倍的基因和其它方式加倍獲得的基因在功能上有明顯差別,也進(jìn)而為全基因組加倍提供了另一證據(jù)(下圖)。
作者將研究找到的這些基因組加倍或稱古多倍體事件標(biāo)注在昆蟲的進(jìn)化樹上,基因組倍增發(fā)生在哪些lineage里、發(fā)生了幾次,讀者一看便知。
另外,值得注意的是,Michael Barker團(tuán)隊(duì)此前曾經(jīng)利用相似的方法報(bào)道了裸子植物中廣泛存在的古多倍體事件(Li et al., 2015),被認(rèn)為是業(yè)內(nèi)的重要成果。實(shí)際上Barker教授早在09年就開始采用類似方法報(bào)道了被子植物里的古多倍體現(xiàn)象(Barker et al., 2009)。所以這篇昆蟲的文章可以說也是非常系統(tǒng)的工作和多年積累的結(jié)果。其實(shí),早在2016年在加州圣地亞哥一年一度舉行的Plant Animal Conference上Barker教授做了關(guān)于大開大合地做了這項(xiàng)如夢似幻的研究的presentation,當(dāng)時(shí)小編恰好就在下面如癡如醉、似懂非懂地聽著。Anyway,Barker教授開闊的思路和敏捷的反應(yīng)給小編留下了深刻的印象。
搶班奪權(quán)的不只是昆蟲。今年4月17號(hào),也就是昆蟲文章發(fā)表的兩天前,老牌植物學(xué)期刊American Journal of Botany正式刊文報(bào)道了硅藻(diatom)中首次發(fā)現(xiàn)大量(作者用詞:numerous)古多倍體現(xiàn)象(Parks et al., 2018)。文章的通訊作者是來自美國阿肯色大學(xué)(University of Arkansas)的Andrew J. Alverson。
這里要澄清一下,雖然發(fā)表在植物學(xué)的期刊,名字又帶個(gè)藻,硅藻在分類學(xué)上與真正意義上的植物并無太大的親緣關(guān)系。其實(shí)很多“藻”字輩的物種都并非植物。小編最早接觸的藍(lán)藻的概念也是在大學(xué)植物學(xué)的課堂里,直至多年后到了國外才知道原來老外都叫cyanobacteria。
注意硅藻(diatoms)的位置。圖片來自(Cock et al., 2010)
既然不是植物,這篇文章所報(bào)道的硅藻進(jìn)化歷程中的古多倍體現(xiàn)象就自然顯得格外重要。這篇文章所使用的主題策略同上一篇沒有大差,也是基于ks峰等方法。作者們估算有兩次高可信度的基因組倍增發(fā)生在6000萬-1億年的時(shí)間內(nèi),其它倍增事件更為久遠(yuǎn),最遠(yuǎn)的可以追溯到兩億年前。
文章根據(jù)不同的方法推斷得到的幾種古基因組倍增發(fā)生的lineage。圖片來自(Parks et al., 2018)
在這兩篇報(bào)道之前,古多倍體現(xiàn)象主要集中在植物、特別是被子植物中被發(fā)現(xiàn)。在動(dòng)物界,已知脊椎動(dòng)物的祖先——也就是我們?nèi)祟惖淖嫦取?jīng)也是,多倍體(你沒看錯(cuò),這是真的)(Dehal & Boore, 2005; Putnam et al., 2008)。硬骨魚(teleost fishes)的祖先(Christoffels et al., 2004; Vandepoele et al., 2004)也被認(rèn)為發(fā)生過兩次古代多倍體事件(武漢水生所的何舜平教授在該領(lǐng)域也有諸多建樹(Yang et al., 2013; Zhong et al., 2016))。
其實(shí),早在1970年,日本學(xué)者Ono就提出了基因組加倍這一劃時(shí)代的猜想。27年后,來自愛爾蘭都柏林大學(xué)(The University of Dublin;愛爾蘭語Ollscoil átha Cliath)的Wolfe同合作者借助剛剛完成測序的出芽酵母(Saccharomyces cerevisiae)的基因組序列,在這種經(jīng)典的模式生物中率先發(fā)現(xiàn)了自然界中基因組倍增的確實(shí)證據(jù)(Wolfe & Shields, 1997),被認(rèn)為是對基因組倍增事件的首次描述(如果當(dāng)初那些大佬們沒有選擇出芽酵母作為模式生物,估計(jì)全基因組倍增的發(fā)現(xiàn)還要向后推N多年后擬南芥被測序吧)。該次古基因組倍增時(shí)間發(fā)生于距今幾千萬甚至乎一億年前左右,隨著時(shí)間的推移,似乎大部分基因都已經(jīng)丟掉一個(gè)拷貝甚至兩個(gè)拷貝全部丟失,但仍有五百對以上的基因(注意是500對,不是500個(gè))保留到今天。早期基因組倍增的研究所采用的的方法與昆蟲和硅藻的文章有很大不同,主要是找尋基因共線性(gene collinearity或synteny)的證據(jù)。這一點(diǎn)大家看下面兩幅圖,很清晰。
圖片來源:https://biologos.org/blogs/dennis-venema-letters-to-the-duchess/the-origin-of-biological-information-part-5
圖片來源:https://www.nature.com/articles/nature10625
btw:想學(xué)習(xí)怎樣用circos產(chǎn)生這種基因組加倍的經(jīng)典graph嗎?歡迎訪問生信人制作的專題視頻教程。
既然如此普遍,那么基因組倍增有什么好處呢?學(xué)術(shù)界對于這個(gè)問題有很多探討。小編其實(shí)也不甚清楚,在這里簡單說一下。基因增多了,那么基因的表達(dá)量可能也會(huì)跟著增加,轉(zhuǎn)錄起來也帶勁(不知道多倍體植物是不是都比較個(gè)大)。第二,一個(gè)基因多一個(gè)拷貝,也算是多一份保險(xiǎn)。萬一其中一個(gè)基因掛了,還有另一個(gè),在危難關(guān)頭可以起到很大作用。再者,增加的拷貝可能完全是冗余的,換句話說,也就是一個(gè)基因就足夠了。在這種情況下,原始的拷貝需要保持原始的功能,而新增加的拷貝會(huì)慢慢積累突變,因?yàn)檫@些突變的危害性會(huì)減小(還有另一個(gè)拷貝執(zhí)行原始的功能)。于是乎,隨著時(shí)間的推移,突變的拷貝可能恰好突變出新的功能,如果這個(gè)功能對于生物體很重要,該基因可能就會(huì)成為重要基因留存在生物體內(nèi)。還有一種情況,就是倍增后的不同基因拷貝各自分擔(dān)了祖先基因的部分功能,也就是說必須在兩個(gè)拷貝都存在于基因組的情況下,才能確保原始功能的完美復(fù)刻,也就是說兩個(gè)拷貝的命運(yùn)完全被綁定在一起,任何一個(gè)都不能丟。有個(gè)術(shù)語叫subfunctionalization,專門描繪這種現(xiàn)象。此外,多倍體化還被同地質(zhì)事件聯(lián)系在一起,有觀點(diǎn)認(rèn)為倍增的植物能夠倍兒棒倍兒精神地挺過地質(zhì)危險(xiǎn)期,詳見比利時(shí)根特大學(xué)著名的Van de Peer教授的一系列文章(Fawcett et al., 2009)。還有,基因組倍增還經(jīng)常與物種分化的加速聯(lián)系在一起,盡管這一觀點(diǎn)也受到了一些質(zhì)疑。
好了,話說回來,實(shí)際上,也有部分學(xué)者對于基于Ks對基因組倍增事件而進(jìn)行推斷提出了異議。其主要觀點(diǎn)是歷史上越久遠(yuǎn)的基因組倍增事件的基因丟失的多,發(fā)生的變化相對來說也要更大,因此保存的信號(hào)就不那么清晰,Ks峰越扁平,越難以判斷。因此對于較為久遠(yuǎn)的基因組加倍事件的次數(shù)、時(shí)間以及具體發(fā)生在進(jìn)化樹上的哪一位置,在推斷上應(yīng)十分謹(jǐn)慎。小編搜羅到有兩篇文獻(xiàn)都指出了類似的觀點(diǎn)(Tiley et al., 2016; Ruprecht et al., 2017)。小編曾在一次會(huì)議上碰巧與其中一篇文章的作者聊過天,他表示非常認(rèn)同基于ks和基因樹對基因組倍增事件的判定,只不過對于較古老事件的推斷的準(zhǔn)確性有所擔(dān)憂。當(dāng)然具體多少年前才稱得上夠久遠(yuǎn),這位老兄也沒有講明。小編斗膽估計(jì)怎么著也要有五千萬年甚至乎一億年以上吧。
此外,前面說過,基因組加倍現(xiàn)象之前的報(bào)道主要是基于基因共線性(gene collinearity; gene synteny)的證據(jù)。基于Ks的推斷繞過了這一障礙,使得古基因組倍增事件的推斷可以在沒有基因組序列的情況下進(jìn)行。早年間ks峰可以說是作為對于共線性分析的補(bǔ)充證據(jù),然而這幾年其后來居上,勢頭生猛有如黃河泛濫一發(fā)不可收,一躍成為推斷基因組加倍的利劍。這把劍雖然鋒利,需要注意的是它是一柄雙刃劍,其另一面也正是為部分學(xué)者詬病的。比如,對于硅藻古多倍體的這篇文章(當(dāng)時(shí)是剛剛放在bioXriv上的preprint),來自比利時(shí)根特大學(xué)(University of Ghent)的Vandepoele教授(這位仁兄曾在硬骨魚的古多倍體做出重要貢獻(xiàn),見上文)就曾發(fā)推表示了自己的疑惑:
在昆蟲全基因組倍增的論文中作者只在家蠶(Bombyx mori)中找到了基因共線性的證據(jù),但是要知道他們分析了27個(gè)昆蟲基因組哦。作者表示限制他們做進(jìn)一步分析的一個(gè)很重要的因素就是今時(shí)今日所能拿到的昆蟲基因組數(shù)量有限且很多組裝質(zhì)量不高。硅藻的論文中,作者更是沒有提及相關(guān)的證據(jù)。
小編曾就這一問題請教過來自加拿大的一位教授也是業(yè)內(nèi)專家,他表達(dá)了兩個(gè)看法:第一,基于基因共線性的方法顯然更為嚴(yán)謹(jǐn),提供的證據(jù)也最為有力。第二,ks峰不一定代表全基因組倍增,有可能是部分染色體倍增,或染色體大片段區(qū)域的倍增,不過全基因組倍增有較大可能性。
關(guān)于這個(gè)話題,大家怎么看呢?
后續(xù)報(bào)道:再談基因組倍增的判斷標(biāo)準(zhǔn)
參考資料
Barker MS, Vogel H, Schranz ME. 2009. Paleopolyploidy in the Brassicales: analyses of the Cleome transcriptome elucidate the history of genome duplications in Arabidopsis and other Brassicales. Genome Biology and Evolution 1: 391-399.
Christoffels A, Koh EGL, Chia JM, Brenner S, Aparicio S, Venkatesh B. 2004. Fugu genome analysis provides evidence for a whole-genome duplication early during the evolution of ray-finned fishes. Molecular Biology and Evolution 21(6): 1146-1151.
Cock JM, et al. 2010. The Ectocarpus genome and the independent evolution of multicellularity in brown algae. Nature 465(7298): 617-621.
Dehal P, Boore JL. 2005. Two rounds of whole genome duplication in the ancestral vertebrate. Plos Biology 3(10): 1700-1708.
Fawcett JA, Maere S, Van de Peer Y. 2009. Plants with double genomes might have had a better chance to survive the Cretaceous-Tertiary extinction event. Proceedings of the National Academy of Sciences of the United States of America 106(14): 5737-5742.
Jiao YN. 2018. Double the Genome, Double the Fun: Genome Duplications in Angiosperms. Molecular plant 11(3): 357-358.
Jiao YN, Wickett NJ, Ayyampalayam S, Chanderbali AS, Landherr L, Ralph PE, Tomsho LP, Hu Y, Liang HY, Soltis PS, Soltis DE, Clifton SW, Schlarbaum SE, Schuster SC, Ma H, Leebens-Mack J, dePamphilis CW. 2011. Ancestral polyploidy in seed plants and angiosperms. Nature 473(7345): 97-U113.
Li Z, Baniaga AE, Sessa EB, Scascitelli M, Graham SW, Rieseberg LH, Barker MS. 2015. Early genome duplications in conifers and other seed plants. Science Advances 1(10): e1501084.
Li Z, Tiley GP, Galuska SR, Reardon CR, Kidder TI, Rundell RJ, Barker MS. 2018. Multiple large-scale gene and genome duplications during the evolution of hexapods. Proc Natl Acad Sci U S A 115(18): 4713-4718.
Parks MB, Nakov T, Ruck EC, Wickett NJ, Alverson AJ. 2018. Phylogenomics reveals an extensive history of genome duplication in diatoms (Bacillariophyta). American journal of botany.
Putnam NH, et al. 2008. The amphioxus genome and the evolution of the chordate karyotype. Nature 453(7198): 1064-U1063.
Ren R, Wang H, Guo C, Zhang N, Zeng L, Chen Y, Ma H, Qi J. 2018. Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms. Molecular plant 11(3): 414-428.
Ruprecht C, Lohaus R, Vanneste K, Mutwil M, Nikoloski Z, Van de Peer Y, Persson S. 2017. Revisiting ancestral polyploidy in plants. Science Advances 3(7).
Tiley GP, Ane C, Burleigh JG. 2016. Evaluating and Characterizing Ancient Whole-Genome Duplications in Plants with Gene Count Data. Genome Biology and Evolution 8(4): 1023-1037.
Vandepoele K, De Vos W, Taylor JS, Meyer A, Van de Peer Y. 2004. Major events in the genome evolution of vertebrates: Paranome age and size differ considerably between ray-finned fishes and land vertebrates. Proceedings of the National Academy of Sciences of the United States of America 101(6): 1638-1643.
Wolfe KH, Shields DC. 1997. Molecular evidence for an ancient duplication of the entire yeast genome. Nature 387(6634): 708-713.
Yang LD, Zou M, Fu BD, He SP. 2013. Genome-wide identification, characterization, and expression analysis of lineage-specific genes within zebrafish. Bmc Genomics 14.
Zhong ZX, Du K, Yu Q, Zhang YE, He SP. 2016. Divergent DNA Methylation Provides Insights into the Evolution of Duplicate Genes in Zebrafish. G3-Genes Genomes Genetics 6(11): 3581-3591.
后續(xù)報(bào)道:再談全基因組倍增的判斷標(biāo)準(zhǔn)(原載于2019年7月)
本文為作者原創(chuàng),原載于生信人微信公眾號(hào),有修正