原文:Mathematical modeling of gene expression: a guide for the perplexed biologist
DOI: 10.3109/10409238.2011.556597
關鍵詞:基因調(diào)控、熱力學模型、微分方程模型、布爾模型、模型選擇、參數(shù)估計、敏感度分析、果蠅
引言
盡管現(xiàn)在有大量的數(shù)據(jù),但由于這些數(shù)據(jù)大多給出的是大量細胞平均的狀態(tài)或很少的動態(tài)系統(tǒng)的快照,因此對于基因調(diào)控的定量認識仍然是很不全面的。因此,僅僅通過實驗途徑來獲得完整的基因調(diào)控網(wǎng)絡極具挑戰(zhàn)性。數(shù)學建模為解決這一關鍵問題提供了一條備選途徑,提供了結合生化相互作用的詳細動力學過程的新方法。
本文我們聚焦于真核系統(tǒng),討論一般方法及其應用,總結了目標、挑戰(zhàn)和未來的方向。
基因調(diào)控模型通常采用統(tǒng)計學或分析方法。兩種方法在提供對基因調(diào)控系統(tǒng)的非直觀見解方面可能非常有效。第一種方法特別適用于包含轉錄組的數(shù)據(jù)集,代表了數(shù)千個基因的表達水平。基于圖的概率模型(例如神經(jīng)網(wǎng)絡,布爾網(wǎng)絡和貝葉斯網(wǎng)絡)用于表示監(jiān)管互動。在不同條件下,統(tǒng)計相關性突出顯示了哪些基因組共同起作用,表明可能存在調(diào)控關系。作為該分析的一部分,可以識別參與轉錄控制的共有基序。這種方法的最終目標是辨別作為給定數(shù)據(jù)基礎的監(jiān)管網(wǎng)絡。這種統(tǒng)計方法提供了涵蓋生物中大部分基因的全景圖,但是它們不能解釋轉錄因子,聚合酶和其他調(diào)節(jié)蛋白之間的復雜關系,或增強子體系結構的精細細節(jié)。由于基因陣列數(shù)據(jù)已經(jīng)存在了一段時間,因此統(tǒng)計方法已經(jīng)相當成熟,并且在最近的綜述中已經(jīng)進行了討論。
相比之下,用于基因調(diào)控建模的分析方法類型的一致性較差,并且其價值普遍缺乏,尤其是在基于DNA序列的建模領域。在這里,我們回顧第二種分析方法,該方法通常集中于少量基因的表達,并由多種不同的數(shù)學模型表示。該模型可以包括與轉錄因子和RNA聚合酶與DNA的結合,轉錄因子之間的協(xié)同和抑制性相互作用,mRNA和蛋白質(zhì)降解以及mRNA翻譯率有關的術語。與某些統(tǒng)計方法不同,對于這些方法,我們需要對系統(tǒng)組件和有關系統(tǒng)結構的假設有廣泛的了解。在這種情況下已應用了三大類數(shù)學模型:熱力學模型,布爾模型和基于微分方程的模型。這些模型已被用來總結實驗數(shù)據(jù),從復雜的實驗數(shù)據(jù)中推斷出新的關系,指導研究人員尋找新的可檢驗假設,并找到很難直接測量而可以導致對新元件進行精確建模的系統(tǒng)的性質(zhì)。這些模型具有幾個一般特征。大多數(shù)情況下,模型是確定性的,也就是說,對自變量的更改會對因變量產(chǎn)生可預測的,可重現(xiàn)的影響,但是它們也可以被構造為隨機模型,以捕獲受內(nèi)在或外在噪聲影響的許多生物系統(tǒng)的不穩(wěn)定行為。建模方法也可以分為離散的和連續(xù)的。離散形式(例如布爾模型)將時間,狀態(tài)或空間表示為離散值集,從而簡化了計算,盡管基于微分方程的模型利用連續(xù)值來提供動態(tài)變化的“平滑”表示。
在這里,我們討論三種主要模型的結構和應用:熱力學模型,基于微分方程的模型和布爾模型。使用哪種模型的選擇通常取決于所考慮的系統(tǒng)和問題。如果成功,那么所選擇的模型應該適合現(xiàn)有數(shù)據(jù)并在系統(tǒng)上提供新的生物學見解,而不僅僅是概括已知的內(nèi)容。
熱力學模型
這種建模方法試圖從順式調(diào)控區(qū)的序列中提取有關基因調(diào)控的信息,并測量或推斷出序列特異性轉錄因子與這些元件的結合。就是說,給定一個啟動子和一些特征明確的轉錄因子,人們努力預測一個基因將如何被激活或抑制。這些模型可預測調(diào)節(jié)區(qū)域上結合位點的不同組合如何共同發(fā)揮作用,以提供不同的時間和空間表達輸出,并做出特定假設,即基因活性與結合激活因子??的水平成正比,與結合抑制因子的水平成反比。熱力學(也稱為分數(shù)占用)模型基于DNA-蛋白質(zhì)相互作用和統(tǒng)計物理學的簡單生物物理描述(圖1A)。當前的實現(xiàn)忽略了諸如染色質(zhì)結構和修飾或DNA甲基化之類的其他過程,盡管這些方面可能會納入未來的模型中,但它們并不會獨立地處理輔因子的募集或一般的轉錄機制。這種簡化似乎并不是致命的缺陷。這些模型的相對成功表明,初級DNA /蛋白質(zhì)相互作用下游的那些事件因此可能在確定增強子結構與基因表達之間的關系中起較小的作用。
實現(xiàn)此類模型有兩個基本步驟。首先,根據(jù)潛在的轉錄因子與DNA的相互作用列出了增強子的所有可能狀態(tài),并為每個狀態(tài)分配了統(tǒng)計權重(圖1A)。基因激發(fā)的概率是通過“成功”狀態(tài)(即具有激活因子優(yōu)勢的狀態(tài))的分數(shù)來計算的。對于包含一個結合位點的簡單的調(diào)節(jié)區(qū)域將只有兩個狀態(tài),綁定狀態(tài)和未綁定狀態(tài),盡管具有四個位點的元素將具有16個狀態(tài)。使用轉錄因子的濃度和這些因子與其在DNA上的位點的結合親和力來計算狀態(tài)的統(tǒng)計權重。對于與高親和力位點結合的大量蛋白質(zhì),其權重將比轉錄因子稀少或結合位點弱的情況大得多。每個狀態(tài)的概率可以通過用狀態(tài)的統(tǒng)計權重除以所有可能狀態(tài)的統(tǒng)計權重之和。該計算過程可以包含已知會影響轉錄的特性。例如,可以通過分配更高或更低的權重,將轉錄因子與阻遏物對激活物的抑制作用之間的合作和競爭相互作用明確地添加到模型中。熱力學建模的第二步是計算每個狀態(tài)的基因表達輸出。盡管阻遏物占用可能導致低表達,但激活子占用較高的狀態(tài)可能會誘導高表達。已經(jīng)采用了不同的方法來將占用轉化為基因表達。如下所述,可以根據(jù)與RNA聚合酶結合概率或轉錄因子加權和成比例的基因表達輸出建模。
在不同領域如何實施這種方法?熱動力學模型的理論基礎已經(jīng)在原核系統(tǒng)中首先進行了探索。由于調(diào)節(jié)區(qū)通常很小,幾乎不結合轉錄因子,因此簡單的細菌系統(tǒng)為定量研究提供了一個易于處理的環(huán)境。大腸桿菌中的lac操縱子和λ噬菌體的裂解/溶原性轉換是已被治療的兩個例子。 Bintu等人考慮了其他啟動子和構型。 Zhou和Su概括了Bintu等人的結果,得出一個簡單的公式,用于計算所有簡單調(diào)控結構的轉錄概率。該模型可作為Python模塊“ tCal”獲得,該模塊允許用戶輕松構建和配置目標基因的轉錄模型(Zhou和Su,2008)。盡管在簡單的原核系統(tǒng)中使用熱力學模型已經(jīng)幫助研究人員建立和改進了這種建模方法,但是由于基因調(diào)控機制的根本差異,這些研究的結果通常不能直接擴展到真核系統(tǒng)。
在真核生物中,復雜的順式調(diào)控區(qū)域適合進行熱力學建模,因為這種方法具有最大的潛力來預測轉錄因子結合位點的不同組合的功能。酵母和果蠅中熱力學模型的最新應用說明了這種方法的可能性和局限性。
為了鑒定一組啟動子中可能的調(diào)控基序,熱力學分析可以檢測簡單模式搜索可能忽略的退化結合位點。 Granek和Clarke 應用熱力學模型通過利用轉錄因子的濃度及其以位重矩陣(PWM)表示的結合位點偏好來檢測酵母基因組中的轉錄因子靶標。他們的算法GOMER具有獨特的能力,能夠從相對稀疏的數(shù)據(jù)集中識別轉錄因子之間的假定競爭性和合作性相互作用,這種方法很難用機器學習方法來實現(xiàn)。他們使用GOMER鑒定了控制細胞周期調(diào)控基因表達的Fkh2和Mcm1靶標,并分析了協(xié)同作用在該過程中的作用。他們進一步研究了Ndt80和Sum1轉錄因子之間的競爭在區(qū)分基因調(diào)控的有絲分裂和減數(shù)分裂程序中??的作用。該算法還預測了Rap1的全基因組結合,這已被染色質(zhì)免疫沉淀法證實。這些研究集中在酵母上,但是該算法可以應用于其他調(diào)控系統(tǒng)。
以上方法著重于分析結合特定轉錄因子的內(nèi)源序列,僅提供了這些調(diào)控因子可能在啟動子上采用的潛在排列方式的很小一部分的視圖。相比之下,Gertz和Cohen分析了酵母中大量合成啟動子,這些啟動子受到三到四個轉錄因子隨機組合的結合,這些轉錄因子已知共同調(diào)節(jié)該生物體中的基因。他們測試了2800個啟動子,并非完全的可能配置列表,但是比僅考慮基因組中共同調(diào)控的基因組所提供的啟動子高了幾個數(shù)量級。每個啟動子的定量輸出通過熒光報告儀測定,并且活性通過熱力學模型擬合。他們的模型能夠解釋不同啟動子結構驅動的基因表達差異的44%至59%,并考慮了轉錄因子結合位點之間的協(xié)同作用以及弱結合位點的影響。然后他們使用該模型預測基因組中的新靶標,包括由于位點的親和力低而被忽略的Mig1新靶標。這兩種方法旨在解密一般的轉錄"語法",這可能適用于不同物種中發(fā)現(xiàn)的新的遺傳調(diào)控安排。
在光譜的另一端,熱力學建模也已用于發(fā)現(xiàn)單個復雜調(diào)節(jié)區(qū)域的詳細功能。 Reinitz及其同事對果蠅果蠅(eve)基因的1.7-kb啟動子近端區(qū)域的活性進行了建模,該基因在胚胎的七個條紋中表達。該區(qū)域指導條帶2的胚盤表達,以及條帶7的弱表達。在仔細觀察該DNA片段指導的表達后,作者將調(diào)節(jié)該基因的轉錄因子的時空表達水平納入了熱力學中。模型。僅使用實驗確定的四個轉錄因子的17個結合位點(那些使用DNAse I腳印法發(fā)現(xiàn)的結合位點),他們就無法重建報告基因產(chǎn)生的表達模式。但是,當它們包括針對另外三個轉錄因子的另一組生物信息學預測的結合位點時,該模型便能夠擬合該數(shù)據(jù)。這項研究的重要結論是,廣泛分布的結合位點可能一起起作用以產(chǎn)生類似增強子的輸出,這表明并非所有的發(fā)育調(diào)控元件都以緊湊模塊的形式存在。他們通過正確預測特異性結合位點突變或特異性轉錄因子缺失引起的模式改變,擴展了分析范圍。這種建模工作為順式調(diào)控區(qū)域的新情況提供了定量支持,但這種研究中發(fā)現(xiàn)的參數(shù)不能輕易用于其他增強子區(qū)域,這限制了該模型的廣泛應用。由于參數(shù)之間的補償,對可能包含數(shù)十個結合位點的單個增強子區(qū)域進行建模對參數(shù)估計提出了挑戰(zhàn)。之所以會出現(xiàn)這種效果,是因為這種研究中使用的數(shù)據(jù)是有限的,因此,特別是在有許多參數(shù)的情況下,很可能許多組合(反映了完全不同的生物學場景)將產(chǎn)生相同的結果。例如,對于活化劑A具有強位點而對活化劑B具有弱位點的增強劑可能等同于具有弱A和強B位點的增強劑。更多的實驗數(shù)據(jù)對于鑒定生物學上正確的值將是必不可少的。
Segal及其同事在更大范圍內(nèi)進行了一項研究,該研究利用了果蠅胚盤胚胎中可獲得的高質(zhì)量定量數(shù)據(jù),將Reinitz的研究方法擴展到了59種不同的增強子。該數(shù)據(jù)集包含了八個轉錄因子的空間表達數(shù)據(jù)和胚盤中胚中靶基因的表達。他們的模型結合了濃度縮放,同型(但不是異型)合作結合以及每種轉錄因子表達貢獻的參數(shù)。與之前的啟動子研究不同,該模型未嘗試引入“淬滅”,即短距離阻遏物的距離效應,這是這些蛋白質(zhì)的關鍵特征。盡管有這些簡化,但對于許多增強子仍可獲得合理的預測。該研究預測,順式調(diào)控模塊中包含的弱蛋白結合位點對總增強子活性起著重要作用,同型合作相互作用也是如此,在較低的輸入濃度下可以提供更清晰的模式。他們的模型通常可以很好地預測較早表達的缺口基因的表達模式,但對成對規(guī)則基因的較晚表達模式的成功率較低,這可能是因為未考慮異型協(xié)作相互作用和距離依賴性猝滅。眾所周知,這兩個功能在許多情況都起著關鍵作用。
Papatsenko及其同事采用了一種獨特的熱力學建模方法,他們專注于與果蠅胚胎中驅動神經(jīng)源性基因表達的增強子相關的基因調(diào)控規(guī)則。 rho,vnd和vn增強子由兩個轉錄激活因子Dorsal(Dl)和Twist(Twi)和一個阻遏物Snail(Sna)調(diào)控。這些基因的調(diào)節(jié)區(qū)域的差異導致背側和腹側區(qū)域的表達模式略有差異。這項研究將熱力學模型應用于計算機模擬概念性調(diào)控元件,該調(diào)控元件包含Dorsal-twist-snail(DTS)站點的關鍵核心區(qū)塊,而不是Segal和Reinitz使用的內(nèi)源序列。他們的模型能夠產(chǎn)生與內(nèi)源性rho,vnd和vn基因相似的模式,并提示結構特征,例如轉錄因子之間的協(xié)同親和力差異以及DTS模塊數(shù)量,可以解釋這些基因之間的表達差異。參數(shù)比較表明,rho模型要求的Dl-Twi合作性比vnd高5-10倍,以及更高的Twi-Twi合作性,而針對vnd的模型需要更多的DTS模塊和更高的Sna-Sna合作性對于rho。系統(tǒng)發(fā)育比較被用來驗證這些結論:因子結合位點之間的間隔通常是保守的,而且vnd中DTS模塊的數(shù)量總是比rho中的多。與上面討論的其他示例不同,沒有直接測試建模的DNA序列的功能。但是,本文的大多數(shù)結果與早期的定性研究一致。
為了獲得在生理上多余的背景下分析高定義元素的好處,最近在一項研究中采用了一種組合方法,該方法對合成的調(diào)控元素進行了建模。體內(nèi)定量表達數(shù)據(jù)是從27種合成增強子獲得的,這些增強子旨在測試影響果蠅早期胚胎阻抑的功能。通過共聚焦激光掃描成像對900多個胚胎進行測量,報道基因活性的水平有所提高,并注意到由于增強子結構的細微變化而導致的定量差異。為了簡化分析,本研究著重于影響阻遏物的特定特征,因此激活位點的排列和數(shù)量保持不變。值得注意的是,這種建模方法的應用提供了從單個胚胎的分析中無法得出的見解,最顯著的是非線性函數(shù)描述了短距離壓力的猝滅作用,以及對不同激活劑的猝滅的相似敏感性。將這些見解擴展到內(nèi)源性rho增強劑后,研究表明,從合成增強劑中學到的參數(shù)可直接應用于天然增強劑,突出了該增強劑體系結構的重要特征。較早的研究是基于對結構多樣的增強子序列的分析,因此很難確定增強子中結合位點組成的重要特征,而這是理解增強子進化的關鍵。通過專注于一組定義明確的相似元素,Arnosti和同事們能夠采用一種模型,該模型具有大量參數(shù),并對這些參數(shù)進行了可靠的估計。
這些最新的示例說明了熱力學建模在各種情況下的應用。盡管并入了有關DNA序列,轉錄因子豐度和結合親和力的定量信息,但是該方法仍然忽略了轉錄過程的主要特征,例如核小體效應,結合位點的方向,接近轉錄起始位點和染色質(zhì)修飾。熱力學模型通過考慮多達三個不同層的過程來簡化這些復雜性。即,轉錄因子的結合,輔因子的后續(xù)募集以及這些輔因子的轉錄促進作用。
Janssens等人的模型中的三個步驟說明了這一過程:轉錄因子的部分占有率(包括由于短距離代表的淬滅而導致的活化劑占有率的校正,輔因子的募集(稱為“銜接子”)以及轉錄率的計算,此處以阿雷尼烏斯(Arrhenius)表示。在其模型的第一層中,轉錄因子獨立地與DNA結合(即無合作結合),并且當短程阻遏物結合并淬滅它們時,活化劑的占有率降低。阻遏由一個乘性項表示,因此幾個阻遏物可以作用于同一個激活物,從而連續(xù)降低其活性,就像激活物一樣,阻遏物的效能(或“縮放因子”)也被視為自由參數(shù),該模型的第二層描述了轉錄因子對輔因子的募集作用,這是過程的粗略簡化,其中每個激活劑都有恒定的潛力來招募輔助因子,并且所有因子都是等效的。 第三層描述了轉錄的激活,其中輔因子降低了激活能壘,由Arrhenius表達來描述。該模型假定了激活器之間的協(xié)同作用,產(chǎn)生了非線性激活響應。在低水平時,此活性對應于觀察到的基因開關的生物學特性,但在此表示中,隨著募集更多輔因子,信號呈指數(shù)增加,因此設置了任意最大閾值水平以限制轉錄。轉錄的激活也可以通過其他表達來描述,以產(chǎn)生S形反應,例如邏輯函數(shù)。
其他研究使用了這種三層方法的變體。 Segal等允許轉錄因子之間的同型合作,但省略了距離依賴的壓制。第二個層次涉及轉錄因子(參數(shù)化特征)表達貢獻的總和,盡管它們不涉及輔因子募集,但在邏輯上與Janssens等人的研究平行。第三層,轉錄的計算由S形函數(shù)表示。 Fakhouri等結合了兩個額外的功能,已知對這些增強子起重要作用,即短距離抑制和異型合作。并非所有模型都采用三步法。 Zinzen等僅對轉錄的第一層進行建模,即轉錄因子與DNA的結合,然后假設轉錄水平與活性狀態(tài)水平呈線性相關,從而臨時假設活性增強子必須具有至少綁定一個背面和一個Twist激活劑,并且沒有Snail抑制子。與Janssens等人的治療相反,包括轉錄因子的合作結合。 Gertz等遵循類似的方法,Granek和Clarke(2005)也采用了相似的方法,他們還包括權重函數(shù)以促進合作和競爭。
熱力學模型中這些層的實現(xiàn)多樣性表明,優(yōu)化這種模型的事態(tài)尚不成熟。沒有研究系統(tǒng)地考慮不同公式對整體模型的魯棒性和準確性的影響。熱力學建模的另一個主要挑戰(zhàn)是一個平庸而又基本的挑戰(zhàn)。功能性結合位點的定義。轉錄因子可以耐受高序列變異性,從而為基因調(diào)控提供了高度靈活性。然而,這種靈活性使結合位點的檢測成為一項復雜的任務。實驗上已知的結合位點數(shù)量有限,生物信息技術不能保證準確檢測結合位點,這限制了建模的有效性。然而,隨著對結合偏好的全面調(diào)查的開展,功能性結合位點的知識鴻溝開始縮小。即便如此,由于對上下文的具體作用了解不足,體內(nèi)結合常常與預測不符。另外,轉錄因子的活性可以表現(xiàn)出與環(huán)境有關的作用。例如,取決于增強子的結合,駝峰(Hb)蛋白可以起激活子或抑制子的作用。但是,在最近的研究中沒有考慮到這種上下文依賴性。在Janssens等人中Hb被用作活化劑及 Segal等研究中的阻遏物。為了更好地了解情境效應,ChIP序列和轉錄組實驗可能有助于提供有關體內(nèi)結合和功能的必要基因組信息。
盡管有其缺點,但為了詳細分析轉錄順式元件的功能,熱力學建模代表了最具有生物學意義的方法,有望在DNA水平破譯基因調(diào)控。當前的簡化和未知功能限制了其預測能力,但使用更好的數(shù)據(jù)集(例如體內(nèi)轉錄因子占用率)可能會生成更強大和更復雜的模型。數(shù)據(jù)限制不應阻止數(shù)學家創(chuàng)建新方法,可以在合成數(shù)據(jù)集上對其進行測試并用于指導實驗人員。為了獲得真正的全球了解,應該將熱力學模型與網(wǎng)絡級建模研究聯(lián)系起來,這將是以后進行研究的主題。
微分方程模型
熱力學模型在捕獲明確定義的轉錄元件的詳細的準平衡活性方面特別有價值。但是,許多生物學問題都需要一個可以代表多組分,隨時間變化的動態(tài)系統(tǒng)的模型。在這里,微分方程模型脫穎而出。調(diào)節(jié)網(wǎng)絡可以用微分方程表示,其中一組分子(例如mRNA和蛋白質(zhì))通過速率方程定義的明確規(guī)則相互作用。這些方程式將每種蛋白質(zhì)或mRNA的水平指定為系統(tǒng)發(fā)展過程中其他組分的函數(shù)。這些模型通常包括時間和/或空間相關的變量,例如蛋白質(zhì)和mRNA濃度,以及參數(shù),例如生產(chǎn)和降解速率(圖1B)。
微分方程模型可分為兩大類:使用常微分方程(ODE)的模型,它們?nèi)Q于單個變量,例如時間;使用偏微分方程(PDE)的模型,其中涉及多個變量,例如時間和空間。 ODE是一個經(jīng)過深入研究的數(shù)學領域;盡管通常很難用解析的方式解決這些問題(即找到將解決方案表示為顯式函數(shù)的公式),但可以通過多種數(shù)值方法找到解決方案的近似值,并且可以免費使用便捷的軟件工具。對PDE的分析和數(shù)值研究也很好,但是PDE理論更復雜,計算要求更高。尋找分析解決方案的困難意味著在這里數(shù)值模擬也是主要的分析工具。
ODE模型已經(jīng)應用的最初的基因調(diào)控系統(tǒng)是細菌操縱子,例如lac和色氨酸(trp)。這些操縱子中的每一個都由結構基因和一個小的調(diào)控DNA區(qū)域組成,該區(qū)域通過與轉錄調(diào)節(jié)因子,RNA聚合酶結合以及在trp情況下,核糖體與前導mRNA的結合來控制基因表達。這些操作已在實驗和定量上進行了廣泛的研究。 40多年前,古德溫建立了第一個操縱子動力學數(shù)學模型,然后格里菲斯開發(fā)了更簡單的可誘導和可抑制基因調(diào)控網(wǎng)絡的綜合分析。問題的美麗吸引了許多其他研究人員,他們開發(fā)了更復雜的模型,這些模型考慮了其他相關過程以了解lac和trp操縱子的動力學。這些較早的研究未必可以直接推廣到其他生物系統(tǒng),但它們?yōu)榉治黾毦驼婧松锏恼{(diào)控區(qū)提供了一般原則。 Santillán和Mackey(2004)提供了一個高級示例,他們介紹了lac操縱子動力學模型,該模型將DNA水平的熱力學模型與轉錄因子水平的微分方程模型相結合。用熱力學方法描述了DNA水平的特征,例如已知的操縱子和它們之間的協(xié)同性,用ODE描述了蛋白質(zhì)水平的特征,例如降解和翻譯。尚未為真核系統(tǒng)開發(fā)此類模型,但是這些原核研究顯示的方向非常有價值。
建模人員已將微分方程廣泛用于經(jīng)過深入研究的生物系統(tǒng),例如胚胎模式,種群和感染動態(tài)。但是,這些模型在真核基因調(diào)控網(wǎng)絡中的使用是最近的,而且它們提供的框架對許多從事該領域工作的生物學家并不熟悉。如下所述,但是,高質(zhì)量的數(shù)據(jù)集(例如果蠅中的分割網(wǎng)絡)為利用這些模型提供了絕佳的機會。
微分方程模型已應用于復雜程度各異的動態(tài)真核調(diào)控網(wǎng)絡,范圍從對可擴散形態(tài)發(fā)生素(例如雙曲線)的簡單描述,到包含細胞間信號傳導的復雜基因調(diào)控網(wǎng)絡。黑腹果蠅的前后模式由涉及母體,缺口,成對規(guī)則和區(qū)段極性基因的基因調(diào)控級聯(lián)控制。該過程是研究最深入的開發(fā)系統(tǒng)之一,具有來自遺傳學,基因組學和分子生物學的有關調(diào)節(jié)關系,順式調(diào)節(jié)元件和信號傳導途徑的廣泛信息。但是,盡管進行了廣泛的研究,但這些實驗研究不足以提供這種構圖過程的完整,定量的圖像。基于微分方程的數(shù)學模型已被用來提供對該系統(tǒng)的更深層次的理解。在這里,我們簡要描述了在復雜性不斷增加的環(huán)境中使用這些模型來預測真核調(diào)控網(wǎng)絡的時空變化的情況。
嗎啡是可擴散的物質(zhì),會根據(jù)閾值濃度觸發(fā)不同的發(fā)育反應。果蠅的Bicoid(Bcd)形態(tài)發(fā)生原從胚盤早期胚的前部擴散,形成一個形成前后軸的梯度。通常假定此梯度的形狀和穩(wěn)定性是局部產(chǎn)生,擴散和降解的結果。 Gregor和同事使用基于微分方程的反應擴散模型研究了具有不同大小胚胎的果蠅物種中這種梯度的形成。他們的模型描述了隨著蛋白質(zhì)的擴散和衰變,Bcd濃度隨時間的變化。實驗測量表明,擴散常數(shù)的差異很小,因此該模型表明,在大小完全不同的胚胎中,幾乎相同的Bcd驅動模式是由于Bcd蛋白壽命的物種特異性差異引起的。最近的實時成像實驗表明,Bcd在有絲分裂的幾輪中經(jīng)歷了快速的核質(zhì)穿梭并在細胞質(zhì)和核區(qū)室之間達到平衡。 Shvartsman和同事提出了一個新的ODE模型,以測試Bcd梯度的指數(shù)形狀是否受到此過程的強烈影響。他們的模型包括在胚胎前極的恒定局部產(chǎn)生,以及在核數(shù)目不斷增加的情況下擴散和核質(zhì)穿梭。該模型預測,原子核對Bcd梯度的形狀沒有顯著貢獻。 Bcd梯度是在核遷移到胚盤期胚胎的外圍之前建立的,并在隨后的核分裂過程中保持穩(wěn)定。 Shvartsman及其同事的分析表明,核Bcd譜很穩(wěn)定。模型參數(shù)不必微調(diào),核密度的局部缺陷應僅在核Bcd剖面中產(chǎn)生局部缺陷。盡管有這些重要的預測,但該模型并未像前面提到的研究那樣考慮到胚胎大小與梯度的比例關系。
以前的研究集中在單個轉錄因子上,但微分方程模型也已應用于相互作用的轉錄因子網(wǎng)絡。在最近的幾項研究中,Reinitz及其同事對果蠅缺口基因網(wǎng)絡中的動態(tài)變化進行了建模,包括細胞化和配對規(guī)則前夕1 h的又hunchback(hb),Kruppel(Kr),knirps(kni)和giant(gt)以及母體因子類固醇(bcd)和 caudal(cad)和合子基因無尾(tll)編碼的蛋白。他們的模型使用了結合了合成,衰變和擴散的反應擴散方程式,并且基于描述母胚胚中這些蛋白質(zhì)濃度的高質(zhì)量數(shù)據(jù)集。該模型以高精度再現(xiàn)了間隙基因的表達,并與早期的突變體和報道基因研究相吻合。該研究還提出了新的調(diào)節(jié)相互作用,例如Cad對Kr的激活,并闡明了Hb對Kr,Kr對kni和Gt對kni的調(diào)節(jié)作用。某些先前報道的調(diào)節(jié)相互作用對于良好的模型擬合不是必需的。該分析表明,盡管母親因素驅動了間隔基因的初始激活,但是間隔基因邊界的定位和維持主要取決于間隔基因之間的相互作用。有趣的是,擴散對于觀察間隔基因表達的動態(tài)變化并不是至關重要的。該模型不能令人滿意地預測無效突變體的影響,這可能是由于過于簡化造成的。使用的一維框架假設前后基因獨立于背腹模式網(wǎng)絡而受到調(diào)控,盡管這種假設并不完全正確。此外,模型中未包括的核運動也會影響缺口基因的調(diào)控。在解決問題的三維方法中考慮了這一方面。
基于微分方程的模型也適用于涉及細胞間通信和信號級聯(lián)的更復雜設置。 Barkai和同事使用反應擴散方程來描述TGF-β途徑如何調(diào)節(jié)果蠅的背側模式。他們的模型包括TGF-β信號分子Scw和Dpp,Dpp抑制劑Sog,以及裂解Sog的蛋白酶Tld。當Sog游離或處于復合物中時,都包括方程式以說明Dpp / Scw-Sog復合物的形成,Sog,Dpp / Scw和Dpp / Scw-Sog的擴散以及Sld被Tld裂解。該系統(tǒng)的一個有趣特征是,除了dpp之外,所涉及的基因都是隱性的。因此,一半的劑量足以產(chǎn)生正確的活動-這是強大系統(tǒng)的標志。在進行66,000次模擬的過程中,速率常數(shù)和蛋白質(zhì)濃度的參數(shù)超過四個數(shù)量級,他們觀察到只有198個產(chǎn)生的參數(shù)集對Sog,TLd和Dpp / Scw的2倍變化具有魯棒性,并且顯示出野生型模式。他們發(fā)現(xiàn)健壯的網(wǎng)絡對于大多數(shù)參數(shù)可能具有廣泛的可能性,但有兩個限制。 Sog–Dpp / Scw復合物的形成促進了Tld對Sog的裂解,而復合到Sog的Dpp / Scw可擴散,盡管游離Dpp / Scw不是。他們的模型表明,抑制劑Sog將Scw和Dpp轉運到背中線是健壯性的關鍵。
在前一種情況下,模型中建立了大量有關因素如何相互作用的實驗信息。模型也可以用于發(fā)現(xiàn)此類信息。 von Dassow及其同事分析了果蠅胚胎中節(jié)段極性的建立,其中非常穩(wěn)定的分化狀態(tài)是由涉及Wnt和Hedgehog途徑的細胞間相互作用決定的。他們的模型有48個參數(shù),用于結合率,協(xié)同系數(shù)以及蛋白質(zhì)和mRNA的半衰期。在大多數(shù)情況下,實際價值是未知的。給定現(xiàn)實的初始條件,并使用該網(wǎng)絡中的已知相互作用,該模型未再現(xiàn)節(jié)段極性基因及其產(chǎn)物的活性。但是,通過添加兩個新的交互作用,即Wnt路徑中的正反饋回路和Hh路徑中的負反饋,他們發(fā)現(xiàn)了許多參數(shù)集,這些參數(shù)集使模型能夠重現(xiàn)系統(tǒng)的已知魯棒行為。他們還表明,健壯性并不高度依賴于單個網(wǎng)絡拓撲。只要核心拓撲保持相同,帶有其他鏈接和組件的模型將保持此屬性。對初始條件不敏感也表明了這種魯棒性,作者認為這使該電路易于適應其他系統(tǒng)或環(huán)境。
微分方程方法特別適合捕獲生物系統(tǒng)的動力學性質(zhì)。但是,這些模型具有重要的局限性。構建這些模型所需的數(shù)據(jù)質(zhì)量和數(shù)量使它們難以應用于性能欠佳的系統(tǒng)。向網(wǎng)絡中添加新蛋白質(zhì)可能會產(chǎn)生深遠的影響,但是由于不完全模型的過度擬合,可能會遺漏這些影響。在Reinitz及其同事的早期和以后的努力之間,結果得到了顯著改善,其中使用了相同的建模和優(yōu)化技術,但是提高了數(shù)據(jù)質(zhì)量,允許更低的錯誤級別和更精確的參數(shù)估計。為了使這些模型易于處理,通常將它們應用于源自大型監(jiān)管網(wǎng)絡的較小模塊。
即使當有大量數(shù)據(jù)可用于建模時,通常大量的參數(shù)也會帶來巨大的計算挑戰(zhàn)。因此,很難擴展這種方法來分析具有數(shù)百個相互作用分子的復雜調(diào)控網(wǎng)絡。盡管這些系統(tǒng)最好用統(tǒng)計學方法來處理,但是計算技術的改進可能會改善這個問題。微分方程模型通常也不會考慮非常精細的影響,例如翻譯調(diào)節(jié)或轉錄順式調(diào)節(jié)元件的序列。因此,這些模型無法提供對增強劑結構和組織的了解,例如熱力學模型所提供的信息。因此,微分方程模型通常占據(jù)一個中間地帶,從而侵入了中等到高復雜性的生物系統(tǒng),沒有熱力學途徑的極端細節(jié),但是具有描述其他動力學方面缺乏的合理能力的方法。
布爾模型
諸如細菌能力,細胞凋亡和基因轉錄之類的生物過程通常表現(xiàn)出類似開關的行為。布爾模型將邏輯關系表示為邏輯門,可以捕獲并描述這種行為。在這種方法中,系統(tǒng)中的實體(例如mRNA和蛋白質(zhì))通常具有兩種狀態(tài):打開(1)或關閉(0)(圖1C)。諸如“與”,“或”和“非”之類的邏輯門用于定義實體之間的關聯(lián)。對于受兩個轉錄因子調(diào)控的基因,“與”表示僅當兩個基因都結合時才轉錄該基因,或表示如果其中之一被結合則該基因被轉錄,而不表示當兩個轉錄因子結合時,基因不轉錄。
對于任何描述了其元素之間相互作用的生物系統(tǒng),布爾模型都可以用來在邏輯結構中結合定性實驗觀察結果或模擬系統(tǒng)的動態(tài)行為。由于它們的簡單性質(zhì),這??些模型避免了對有關生物系統(tǒng)反應的定量細節(jié)的需求,這使得布爾模型易于分析分析,計算實現(xiàn)并擴展到大規(guī)模生物系統(tǒng)。因此,布爾模型可以為網(wǎng)絡細節(jié)不清楚的系統(tǒng)提供一個良好的起點。可以輕松創(chuàng)建和分析同一網(wǎng)絡的變體。盡管它們很簡單,但是它們可以提供對底層系統(tǒng)基本性質(zhì)的見解。
在各種情況下都采用了用于模型基因調(diào)節(jié)的布爾方法。如前一部分所述,果蠅缺口基因網(wǎng)絡已通過反應擴散融合模型進行了研究。 Sánchez和Thieffry采用布爾方法分析了同一網(wǎng)絡,模擬了野生型和突變型背景下的定性缺口基因表達模式。這種方法的典型代表是,他們的布爾模型將目標的法規(guī)輸入求和,然后將其轉換為邏輯輸出。為了選擇參數(shù)值,他們動態(tài)分析了間隔基因網(wǎng)絡,運行迭代循環(huán),其中一次運行的輸出被反饋到下一次運行的模型中,并任意接受產(chǎn)生正確表達狀態(tài)的最小參數(shù)值。用于野生型和突變表型。為了進一步簡化系統(tǒng),他們根據(jù)母體因子的濃度水平將胚胎沿前后軸分為四個區(qū)域。基于已知的實驗關系及其建模,他們?yōu)榫W(wǎng)絡中涉及的蛋白質(zhì)分配了不同的功能閾值水平;例如,他們假設Cad將在第一個閾值處激活Kni,在第二個閾值處激活Gt。這項研究說明了間隙基因網(wǎng)絡如何響應母體提供的Bcd,Cad和Hb轉錄因子而產(chǎn)生不同模式的方式,并提供了對間隙基因網(wǎng)絡中最關鍵的相互作用,調(diào)節(jié)相互作用的閾值水平的見解。 ,以及該網(wǎng)絡中缺口基因之間交叉調(diào)控的重要性。例如,盡管有人認為間隙基因之間的交叉抑制是產(chǎn)生間隙基因表達模式的關鍵機制,但他們的分析表明,gt和Kr之間的交叉抑制相互作用至關重要,而其他基因之間卻沒有交叉作用。
盡管基于布爾和微分方程的模型對缺口基因網(wǎng)絡的理解水平相當,但仍然存在關鍵差異。此處采用的布爾方法將胚胎的連續(xù)蛋白質(zhì)濃度離散為四個功能閾值,對應于沿前后軸的位置。這種簡化盡管在計算上是有利的,并且能夠用低分辨率的數(shù)據(jù)來實現(xiàn),但卻使間隙基因網(wǎng)絡功能(如邊界銳化)的詳細建模變得不可能。比較這兩項研究,在預測方面存在一些差異。首先,Jaeger等人報道了kni和hb之間的抑制性反饋回路是必不可少的。但在Sánchez和Thieffry(2001)中沒有,可能是由于后者的研究沒有考慮到后起作用的tll和hb阻遏物。忽略這種抑制性回路是關于作者希望建模的遺傳學程度的選擇,而與所選模型的類型無關。其次,基于微分方程的方法表明,自動激活是銳化間隙域邊界的關鍵組成部分,但由于上述閾值問題,Sánchez和Thieffry的布爾模型無法檢測到它。最后,布爾研究表明,血紅蛋白可能同時具有正調(diào)控作用和負調(diào)控作用,這種可能性被微分方程模型的制定所排除。因此,這些方法之間的主要區(qū)別似乎不是源自整體方法,而是源自實施細節(jié)。
如上所述,果蠅節(jié)段極性網(wǎng)絡的微分方程分析表明,其健壯性歸因于網(wǎng)絡的拓撲結構。一種用于分析該網(wǎng)絡的更簡單的布爾方法概括了早期研究的主要結論,包括對該網(wǎng)絡動態(tài)性的準確預測。在這里,我們采取一些簡化的假設:抑制劑總是比激活劑占支配地位; mRNA在一個步驟中被翻譯成蛋白質(zhì);如果不轉錄,mRNA在一個步驟中會完全降解;如果它們的mRNA在一個步驟后蛋白質(zhì)就會消失。不存在。一種更精細的兩步法,即蛋白質(zhì)分兩步降解,并未改變主要結論(Chaves等,2005)。該研究試圖通過使用段極性基因的早期模式作為初始狀態(tài),并使用穩(wěn)定的后期模式作為最終狀態(tài)來找到網(wǎng)絡的所有可能的穩(wěn)態(tài)。實施該模型后,他們發(fā)現(xiàn)僅經(jīng)過六個時間步,表達模式便穩(wěn)定在一個時不變的空間模式中,這是內(nèi)源基因電路的一種特性。該模型的性能是通過預測網(wǎng)絡中時空基因表達水平(表示為存在(1)或不存在(0))來衡量的。他們發(fā)現(xiàn)了10種溶液,導致了6個不同的穩(wěn)態(tài),其中1個對應于野生型模式,另2個對應于沒有條紋或條紋加寬的已知突變體模式。三個附加穩(wěn)態(tài)的存在表明,該網(wǎng)絡可以產(chǎn)生在正常開發(fā)過程中無法訪問的模式,但可以在其他情況下使用。對每種穩(wěn)態(tài)的潛在初始條件的評估表明,片段極性網(wǎng)絡很健壯,可以糾正初始表達模式中的錯誤。
他們的模型為網(wǎng)段極性網(wǎng)絡的設計提供了一些見識。首先,它表明無翅基因是網(wǎng)絡中的關鍵元素,在正確的時間以正確的方式啟動無翅基因至關重要。盡管Albert和Othmer以及von Dassow的研究在片段極性網(wǎng)絡的魯棒性上達成了共識,但由于對en抑制作用的觀察相反,他們采用了稍有不同的網(wǎng)絡。這些模型在抑制效果的實現(xiàn)上有所不同;微分方程模型允許抑制效果特別降低激活水平,但在布爾模型中,抑制效果占主導地位且完全。這種差異導致在網(wǎng)絡的微分方程處理中,即使是野生型初始基因表達模式,也存在大量帶有非常寬的en和wg條紋的模式。
布爾模型在基因調(diào)控中的獨特應用是在DNA水平上模擬了end16基因的轉錄。在海膽的胚胎和幼體中腸中表達的endo16基因具有復雜的調(diào)控區(qū)域,可控制時空表達。該基因已通過實驗進行了詳細分析,已成為發(fā)育增強子如何處理調(diào)控信息的范例。該基因的廣泛突變分析為Davidson及其同事提供了建立布爾模型的實驗基礎,該模型描述了該基因的調(diào)控元件之間的相互作用。啟動子近端模塊A啟動植物板中的早期基因表達。一旦腸道分化開始,更遠端的模塊B成為主要的操作單元,將其調(diào)節(jié)輸入傳遞至模塊A,模塊A放大此輸入以驅動endo16的表達。布爾模型還合并了附加模塊DC,E和F對模塊A的壓抑作用,以及模塊A和模塊B之間的復雜相互作用。他們的布爾模型描述了endo16增強子區(qū)域中的內(nèi)部開關,從而將控制從模塊A到模塊B。他們的模型不僅使他們能夠總結相互作用,并解釋整個胚發(fā)生過程中end16基因表達變化的控制,而且還提供了許多可檢驗的預測和突變調(diào)控元件的預測輸出。
布爾模型提供了一種簡單且易于計算的方法來對基因調(diào)控進行建模。但是,這些模型的簡單性可能會影響結果的準確性。如果系統(tǒng)嚴重依賴于反應速率或mRNA或蛋白質(zhì)濃度的精細細節(jié),則布爾模型可能無法描述該系統(tǒng)。舉個例子,如果一個基因對自己的產(chǎn)量產(chǎn)生負調(diào)控,那么布爾模型會產(chǎn)生振蕩行為,盡管實際上這種過程通常會導致穩(wěn)態(tài)。對于雄心勃勃的研究者,傾向于采用一種建模方法,該方法采用有關蛋白質(zhì)-DNA相互作用,分子更新或擴散的詳細生物物理描述,并認為利用這些詳細信息必須是有利的。布爾模型的記錄表明,這種更簡單的方法可用于調(diào)查目的,尤其是對于參數(shù)描述不佳的系統(tǒng)。布爾建模提供了一種機制,可以快速探索各種網(wǎng)絡,但需要注意的是,這里的成功可能會受到網(wǎng)絡體系結構的嚴重影響。