文丨于軍
引言
“人類基因組計劃”開啟了諸多前所未有的新的生命學科分支(比如基因組學、生物信息學、蛋白質組學、轉錄組學、代謝組學等),推動了前沿技術的不斷發展與更新,強化了科學研究的平臺化和規模化,從而引導和促進了學科間的交叉和融合。其中,尤為引人注目的是生物信息學和計算生物學的產生和高速發展,這兩個學科的發展推動了高性能計算、規模化生物學數據獲取和近期的云平臺建設等在生命科學領域廣泛和深入的應用。
隨著DNA測序技術的規模化應用,科學家們不僅有機會獲取最基本的遺傳信息,比較不同物種的基因組序列,揭開諸多令人困惑的“科學謎團”,同時也打開了新的“潘多拉匣子”,從而遇到了更復雜、更深刻、更具有挑戰性的新問題。使我們不得不靜下心來思考很多及未解和前所未遇的問題。
那么,就最基本的生物學問題而言,我們應該最關注的是什么?就生物學而言,尤其是新興起的基因組生物學,我們能凝練出哪些未解之謎?我們能夠找出多少定勢和規律?這里我們不妨先提出并初步探討其中的四個。
一、“復制與轉錄負擔之謎(The Replication-transcription Loads Dilemma)”
第一個“生命之謎”是要回答基因組的基本結構特征[1–3],包括:
1、植物與動物基因組結構有哪些不同?這些不同源自何處?
2、脊椎動物與無脊椎動物,比如節肢動物基因組結構有哪些不同?
3、不同高級物種譜系(Lineages)和低等物種譜系基因組之間的有哪些結構差異和特點?因此,我們不禁要問:為什么植物要復制這些不編碼蛋白質的DNA序列呢?為什么不單獨增加一些編碼基因的序列就可以了呢?難道這里是“進化”的“死角”和“垃圾站”?在基因組結構上與植物相反的是:動物基因組將重復序列放在了基因的內含子里面(內含子是基因的一部分,與外顯子構成基因的結構部分)[2,4],不僅被復制,而且還被轉錄,最后在翻譯之前又被毫不吝惜地丟掉:降解成核苷酸了。從表面上看,這也是一種資源的浪費。因此,我們稱之為“復制與轉錄負擔”之謎——即植物基因組復制多余的非編碼DNA,動物基因組轉錄多余的非編碼DNA為RNA。同時,我們認為復雜的分子結構和細胞過程組合(包括剪切、加工等)很難同時變得更為復雜,因此不同的生物譜系選擇了不同組合或者變演的途徑[4]。
那么,會不會植物和動物有著不同的單細胞祖先呢?答案應該是肯定的,只是我們還沒有這么想和去認真尋找證據和論據而已。例如復制的機器(包括多倍體的形成)和轉錄的機器這里又引伸出諸多新的問題,舉幾個例子:
(1)這種基因結構的二相性是如何產生的?
(2)復制依賴于DNA主導的分子機制本身的復雜性,這些復雜分子機制可否實現徹底解析?
(3)基因結構的二相性為什么還伴隨重復序列的不同?就產生的歷史而言,這些重復序列的潛在功能可能是什么?
(4)基因組的增大,意味著復制負載的增大,其動力何在?
二、“多倍體之謎(The Polyploidy Dilemma)”
一般認為,多倍體的形成是通過全基因組加倍(可以來自同源基因組,也可以來自異源基因組)后形成多倍體基因組,然后經過持續的基因丟失最后實現二倍體化,成為新的二倍體,也被稱為古多倍體。
這些多倍體是如何產生,又如何在細胞周期中復制的呢?
盡管在基因的水平上有人給出了可能性和假說,但是在細胞水平上我們其實還是缺少證據的。多倍體在植物基因組是非常常見的(無論是古多倍體還是新形成的現代多倍體),但是在節肢動物和無脊椎動物確是極其罕見的(到目前還沒有發現)。在脊椎動物多倍體化的分布是“低多高無”,不斷變化的。低等脊椎動物,比如魚類和兩棲類大部分是多倍體;可是高等脊椎動物,比如爬行類、哺乳類和鳥類則幾乎沒有多倍體基因組(除了某些體細胞,譬如肝臟細胞、膀胱表皮細胞、肌纖維細胞等的多核亦稱多倍體現象外)存在。很多關于多倍體化問題的答案應該在單細胞真核生物、低等脊椎動物和高等植物基因組的變化中去找。節肢動物幾乎沒有全基因組多倍體化的證據。
三、“生殖系之謎(The Germline Dilemma)”
200余年來,達爾文的進化思想和后人們的種種理論主導了生物學各個領域。達爾文和他的繼承者們否定了拉馬克主義的進化理論(以“用進廢退”和“獲得性遺傳”最為著名),認為遺傳突變是隨機產生的,而且大部分是中性的,或近于中性的弱有害突變。然而,我們十余年來的研究發現突變和選擇的機制其實既有符合達爾文主義原理的,也有符合拉馬克主義原理的,遠比人們已知和想象的要復雜和細微得多。
從數量來看,“達爾文主義變異”(或稱隨機突變)毫無疑問占據了主要地位;但是從復雜性來看,“拉馬克主義變異”(非隨機變異和非蛋白質功能選擇等)則更功能化、更細膩、更無所不在,因此也更神奇。
這里介紹幾個例子。首先,在研究基因表達時,我們發現基因表達越高,其突變率就越高[6,7]。脊椎動物譜系里的溫血動物(鳥類和哺乳類)基因組表現得更突出。另一個例子是組織特異性表達基因的突變率大大高于(約為30%)看家基因(在所有細胞中都表達的基因)的突變率(已經扣除自然選擇的影響)[6]。這個現象近乎神奇,因為組織特異性基因在生殖系細胞(卵母和精母細胞)中表達其實和看家基因、組織特異性基因(僅在不同特定組織和細胞中被調控和表達)沒有什么必然的關系。只有在染色體結構上的高維組織形式與基因在細胞中的有序表達(比如器官發育和組織分化)相關聯時,這樣的結果才能出現。
因此,這個謎又稱為“生殖系之謎”。也就是說,在生殖細胞里,發育和器官分化的信息原本已經存在,后來又被“有序地釋放”出來。DNA甲基化在斑馬魚受精卵早期發育過程中“父系”標記取代“母系”標記的過程就是一個很好的例證[8–10]。
斑馬魚受精卵
在自然選擇方面,我們也觀察到選擇機制幾乎無處不在。比如,基因簇的選擇問題。在脊椎動物和植物基因組中,大部分基因是成簇存在的,它們的基因簇非常保守和穩定,所以有比較好的共線性。但是,節肢動物基因組中的基因簇結構就很差[11]。基因簇的存在主要是基因共表達的一種結構形式。在基于基因功能的選擇上,基因簇也具有特殊性,比如節律調控基因就傾向于從基因簇中“逃逸”,位于基因簇之外[12]。而基因結構本身也有很多選擇因素的存在。
四、“表觀組學之謎(The Epigenomics Dilemma)”
遺傳與非遺傳(或稱為環境和表觀遺傳的總和)的關系一直是遺傳學的困惑。盡管分子生物學也有整整一甲子的歷史了,但是遺傳學與分子生物學,尤其是與細胞生物學的學科邊界還有很深的鴻溝。比如,細胞生物學家在選擇研究對象時往往忽略遺傳學因素。分子生物學家對機制和分子之間的相互作用更感興趣。目前生物學研究的總體趨勢是“分久必合”,是信息和知識的大整合時期。邏輯很簡單,生命是復雜的,因此科學研究也應該走向接納復雜性、認識復雜性和解決復雜問題。
盡管說表觀組學的研究還剛剛開始,但是值得可慶幸的是我們已經積累了很多工具和知識,需要的是一些主導性的大型項目。目前可數的是神經系統的“連接組” 研究,揭示神經元之間的物理和生理關系。“暴露組”研究也在啟動,用于量化物理和化學環境對生命的影響。前者是為神經生物學研究和行為、認知等研究奠定物質基礎,而后者則試圖關聯遺傳因素與非遺傳因素的關系。
結束語
我們在這里提出了幾個基因組學的未解之謎,分別代表著基因組學研究不同層面的問題:(1)基因與基因組結構的問題,(2)基因組變演的基本動力和機制問題,(3)染色體構象、基因分布與生物體發生的關系,以及(4)遺傳與非遺傳機理在分子水平的解剖。科學首先是個復雜的意識形態的范疇,包含理論(科學概念和定律等)、技術和應用,它也是一種實踐和生產力,既解決具體問題,也探討指導實踐的理論。科學概念和宏觀理論框架的明晰會幫助我們保持頭腦清醒,設計更合理的實驗,解決關鍵科學問題。各類“組學”實際上是技術和應用導向的實踐,解決的是具體問題;“組學”數據的分析和挖掘,通過理論框架的有機連接,導致新的概念、理論和定理的產生則是科學實踐的升華。因此,我們會很容易地意識到“五流說”其實是開通學科交叉和融合的“渠道”,既可以作為一個生物學研究的基本理論框架,也可以指導新的思考和實踐。盡管就其目前的結構而言,一定不會覆蓋所有生物學領域的科學問題,但是我們總應該找到一個合理和有效的開始。“千里之行始于足下”,足下的“五流”也正是一個不算寬廣的“路”的開始。生命科學研究的路既充滿樂趣和實用性,又充滿挑戰,一定是漫長而坎坷的。
空間熱薦
更多行業資訊及頭腦風暴,請關注微信公眾號基因空間!