看到這個(gè)標(biāo)題你也許會(huì)覺(jué)得奇怪,世界經(jīng)濟(jì)危機(jī)和藥廠研發(fā)使用的一個(gè)算法會(huì)有什么聯(lián)系呢?本次的文章要介紹一個(gè)在各大制藥公司非常流行的一個(gè)算法,來(lái)說(shuō)明這些頂尖科學(xué)家們是如何利用計(jì)算手段來(lái)加速研發(fā)新藥的。相比用枯燥的公式和術(shù)語(yǔ),這里利用世界經(jīng)濟(jì)危機(jī)的例子來(lái)類(lèi)比闡述,可以讓讀者們更清楚直觀地了解算法的背后思想,具體細(xì)節(jié)可以參閱參考文獻(xiàn)。
假設(shè)現(xiàn)實(shí)世界中,我們觀察到很多國(guó)家深陷債務(wù)風(fēng)波,但是也有少數(shù)國(guó)家GDP增長(zhǎng),總體來(lái)看,我們知道此時(shí)發(fā)生了一次世界經(jīng)濟(jì)危機(jī)。又假設(shè)你作為一個(gè)聯(lián)合國(guó)或者世界銀行首腦,想要解決世界經(jīng)濟(jì)危機(jī),可是該從什么地方下手呢?多國(guó)發(fā)生債務(wù)風(fēng)波,都只是觀察到的表面現(xiàn)象,如果隨機(jī)從一兩個(gè)國(guó)家入手修修補(bǔ)補(bǔ),效果必然不大。這時(shí)候你知道這其中一定有深層次原因,只有從根源上找出引起連鎖反應(yīng)的原因,并加以糾正,才能取得最大的效果。所以為尋找突破口,不妨首先分析一下國(guó)與國(guó)之間的經(jīng)濟(jì)關(guān)系,比如中國(guó)美國(guó)和其他國(guó)家的關(guān)系。
中國(guó)和美國(guó),都是世界的經(jīng)濟(jì)大國(guó),對(duì)它們周?chē)拖旅娴膰?guó)家具有很大影響力,它們現(xiàn)在經(jīng)濟(jì)情況都不好,都是可能導(dǎo)致此次經(jīng)濟(jì)危機(jī)的主要原因。要想最大程度消除經(jīng)濟(jì)危機(jī),且只能救一個(gè)的話(huà),是救中國(guó)還是救美國(guó)呢?我們可以首先考察兩國(guó)和其它國(guó)家的經(jīng)濟(jì)關(guān)系,比如泰國(guó),韓國(guó)和日本。歷史上來(lái)看,中國(guó)和泰國(guó)韓國(guó)歷來(lái)經(jīng)濟(jì)關(guān)系比較正面,在以前的歷史記錄里,都是一榮俱榮,一損俱損的。而和日本,經(jīng)濟(jì)關(guān)系就不怎么樣,中國(guó)榮而日本衰,反之亦然。因此從這些歷史記錄里,可以總結(jié)出一個(gè)規(guī)律進(jìn)行建模。即中國(guó)對(duì)泰國(guó)和韓國(guó)有“激勵(lì)”作用,而對(duì)日本有“抑制”作用。具體來(lái)說(shuō),模型會(huì)定義當(dāng)中國(guó)經(jīng)濟(jì)不行的時(shí)候,泰國(guó)和韓國(guó)經(jīng)濟(jì)也會(huì)受影響衰落,反之中國(guó)經(jīng)濟(jì)繁榮,它們也會(huì)跟著欣欣向榮。另一方面,中國(guó)經(jīng)濟(jì)不好的時(shí)候是日本經(jīng)濟(jì)高興的時(shí)候,當(dāng)中國(guó)經(jīng)濟(jì)繁榮時(shí),日本則會(huì)躲在一旁“別為我哭泣”(圖1)。
同樣地,可以根據(jù)歷史記錄分析美國(guó)和這些國(guó)家的經(jīng)濟(jì)關(guān)系,由于美國(guó)跟日本和韓國(guó)都是盟國(guó)關(guān)系,所以模型會(huì)定義美國(guó)對(duì)這兩國(guó)家都是“激勵(lì)”作用,而美國(guó)和泰國(guó)歷來(lái)不對(duì)付,是“抑制”作用(圖2)。于是以此類(lèi)推,整個(gè)世界經(jīng)濟(jì)的一個(gè)關(guān)系網(wǎng)絡(luò)就這么建成了。
接下來(lái),我們會(huì)根據(jù)實(shí)際觀察到的現(xiàn)象來(lái)評(píng)估這個(gè)模型的表現(xiàn)情況,為每個(gè)預(yù)測(cè)的準(zhǔn)確性進(jìn)行打分,在這場(chǎng)經(jīng)濟(jì)危機(jī)里,中國(guó)經(jīng)濟(jì)出現(xiàn)困難,而且我們觀察到泰國(guó)經(jīng)濟(jì)也不行了,這符合模型的預(yù)測(cè),加一分。韓國(guó)的經(jīng)濟(jì)情況也不好,預(yù)測(cè)正確再加一分。我們進(jìn)一步發(fā)現(xiàn),此時(shí)日本卻能經(jīng)濟(jì)獨(dú)好,又一次符合模型定義,所以在這個(gè)模型預(yù)測(cè)里,中國(guó)的得分是3。再看美國(guó),由于對(duì)日本韓國(guó)都是“激勵(lì)”作用,因此當(dāng)美國(guó)經(jīng)濟(jì)衰落的時(shí)候,這兩國(guó)家理論上應(yīng)該都會(huì)衰落受影響,而被“抑制”的泰國(guó)會(huì)則理論上會(huì)出現(xiàn)經(jīng)濟(jì)好轉(zhuǎn)情況,可是這里日本和泰國(guó)的情況跟模型預(yù)測(cè)的不對(duì),出現(xiàn)了偏差,所以預(yù)測(cè)和觀察結(jié)果美國(guó)兩錯(cuò)一對(duì)得負(fù)分(當(dāng)然實(shí)際上模型的打分系統(tǒng)會(huì)比這個(gè)復(fù)雜許多)。最終在這個(gè)模型預(yù)測(cè)里,根據(jù)此次經(jīng)濟(jì)危機(jī)中觀察到的結(jié)果,中國(guó)得分高,所以中國(guó)此次對(duì)世界經(jīng)濟(jì)危機(jī)影響大,救中國(guó)最有可能讓其他國(guó)家經(jīng)濟(jì)結(jié)果朝預(yù)想的結(jié)果發(fā)展。而對(duì)于美國(guó),因?yàn)槟P皖A(yù)測(cè)和實(shí)際觀測(cè)的很多不一致,所以此次影響微弱,救它則對(duì)很多其他國(guó)家經(jīng)濟(jì)充滿(mǎn)了不確定性。所以為了讓世界重新美好,而且只能救一個(gè)國(guó)家的情況下,那必然是選擇先救中國(guó)了!
好奇的你可能會(huì)繼續(xù)追問(wèn),那么在什么情況下選擇救美國(guó)比較好呢?根據(jù)模型預(yù)測(cè)我們可以很快推出,如果此次經(jīng)濟(jì)危機(jī)的情況表現(xiàn)為韓國(guó)和日本衰落,而泰國(guó)經(jīng)濟(jì)不錯(cuò)的時(shí)候,這個(gè)時(shí)候美國(guó)的得分將會(huì)最高,所以救美國(guó)則效果會(huì)比較好。
這便是算法Causal reasoning的一個(gè)基本思路,筆者把它翻譯成“因果推理”。Causal reasoning的本質(zhì)上是一種基于貝葉斯理論的概率推算。它首先基于以前大量的實(shí)驗(yàn)或者事實(shí)中觀察到的現(xiàn)象而構(gòu)成先驗(yàn)知識(shí)庫(kù),從而可以對(duì)以后每一次事件中所觀察到的現(xiàn)象,與先驗(yàn)知識(shí)庫(kù)比較而推導(dǎo)出造成事件的最可能原因。Causal reasoning在很多領(lǐng)域有廣泛應(yīng)用,在生物醫(yī)學(xué)的研究領(lǐng)域里,此算法的應(yīng)用最早由法國(guó)賽諾菲(Sanofi)公司的Jack Pollard等人提出,用于進(jìn)行2型糖尿病的發(fā)病機(jī)制和靶點(diǎn)研究[1],隨后此算法由美國(guó)最大的制藥公司輝瑞(Pfizer)公司進(jìn)行了改進(jìn)[2],目前已經(jīng)成為各大制藥公司的計(jì)算科學(xué)家們最喜歡最常使用的一個(gè)算法。
為什么這種算法能受到世界各大著名大制藥公司的青睞呢,這還得從制藥公司最關(guān)注什么說(shuō)起。首先萬(wàn)物皆有因果,經(jīng)濟(jì)危機(jī)如此,疾病也是如此。很多疾病,表象都是某些生物過(guò)程出現(xiàn)了紊亂,這個(gè)過(guò)程中會(huì)導(dǎo)致很多基因的表達(dá)會(huì)發(fā)生顯著變化,這都是臨床或?qū)嶒?yàn)中觀察到的現(xiàn)象,算作“果”,而真正的“因”其實(shí)是一個(gè)或者幾個(gè)基因功能失常引起的,但究竟是哪些我們還并不清楚。為了研發(fā)一個(gè)新藥,制藥公司最想知道的就是哪些基因是導(dǎo)致疾病的“罪魁禍?zhǔn)住薄S质悄男┗蛟诩膊∵^(guò)程中起關(guān)鍵作用,由于它們變化而導(dǎo)致了生物過(guò)程紊亂,從而引起了其他基因的變化。目前主流的生物信息分析方法,比如通過(guò)高通量測(cè)序?qū)ふ壹膊≈型蛔兊幕颍@種方法有一定局限性,它并沒(méi)有考慮基因表達(dá)在疾病狀態(tài)的變化,也無(wú)法預(yù)測(cè)它對(duì)其他基因表達(dá)的影響,而且很多時(shí)候突變不一定就會(huì)導(dǎo)致疾病。還有一種手段則是通過(guò)病人樣本的微陣列或者RNA測(cè)序分析,一般都會(huì)得到很多表達(dá)顯著變化的基因,然而大部分分析停留在基因信號(hào)通路(pathway)或者GO(gene ontology)的富集檢測(cè)上,考察它們參與了哪些信號(hào)通路或生物過(guò)程就到此為止了。可惜到了這一步,所得到的結(jié)論還仍然比較粗糙和淺顯。由于顯著變化的基因一般動(dòng)輒幾百上千個(gè),僅僅停留在某些生物過(guò)程階段,這對(duì)制藥公司了解疾病機(jī)制,精確尋找一兩個(gè)藥物靶點(diǎn),顯然還是不夠的。因此為了能從果找到因,這就需要利用已有的知識(shí)庫(kù)和線索建立一個(gè)基因關(guān)系網(wǎng)絡(luò)的預(yù)測(cè)模型,再跟觀察到的現(xiàn)象相比較,判斷其合理性和可能性,才能追本溯源,最終篩選出表象下的根本原因。
正如在經(jīng)濟(jì)危機(jī)模型的例子里面,需要用到歷史記錄一樣來(lái)定義國(guó)與國(guó)之間究竟是“激勵(lì)”還是“抑制”作用一樣,Causal reasoning算法的應(yīng)用,首先也必須建立起這樣的先驗(yàn)知識(shí)庫(kù)來(lái)定義基因之間的相互作用(一般具有方向性),例如某個(gè)基因表達(dá)上調(diào)是否會(huì)引起它下游的某個(gè)基因的上調(diào)或者下調(diào),它們之間究竟是“激勵(lì)”還是“抑制”關(guān)系,這需要一個(gè)長(zhǎng)期和大量的基礎(chǔ)實(shí)驗(yàn)積累。幸運(yùn)的是,在基礎(chǔ)研究的驅(qū)動(dòng)下,已經(jīng)有大量的論文發(fā)表,科學(xué)家們通過(guò)實(shí)驗(yàn)清楚地了解了很多基因之間的作用關(guān)系,并闡述在文獻(xiàn)里,因此整個(gè)基因之間相互作用的關(guān)系知識(shí)庫(kù),便是通過(guò)整理海量的文獻(xiàn)而來(lái)。這樣的文獻(xiàn)知識(shí)整理,或通過(guò)科學(xué)家們閱讀文獻(xiàn),通過(guò)專(zhuān)業(yè)判斷錄入數(shù)據(jù)庫(kù),或通過(guò)自然語(yǔ)言處理方法,快速挖掘出有效的信息整理而成(圖4)。總之這是一項(xiàng)龐大的系統(tǒng)工程,包含至少幾十萬(wàn)條記錄,雖然浩大,但卻是系統(tǒng)生物學(xué)和大數(shù)據(jù)分析發(fā)揮威力的必要準(zhǔn)備。
當(dāng)完備的基因關(guān)系知識(shí)庫(kù)完成后,便可以利用Causal reasoning發(fā)揮計(jì)算預(yù)測(cè)的威力了。如前所述,在對(duì)某種疾病分析得到一堆表達(dá)變化顯著的基因之后,如何繼續(xù)縮小范圍或者對(duì)這些基因做一個(gè)排序,以期得到最相關(guān)的候選基因呢?類(lèi)似于前面提到的國(guó)家經(jīng)濟(jì)關(guān)系分析手段,這時(shí)我們可以利用Causal reasoning算法把這些變化顯著的基因投射到基因作用網(wǎng)絡(luò)之中,根據(jù)知識(shí)庫(kù)的預(yù)測(cè)和觀察到的基因表達(dá)變化作比較進(jìn)行打分。比如某個(gè)基因在網(wǎng)絡(luò)中連接有若干的下游基因,在某疾病檢測(cè)中觀察到此基因表達(dá)上調(diào)了,于是它下游基因的理論表達(dá)變化,便會(huì)根據(jù)文獻(xiàn)中的知識(shí)分別預(yù)測(cè)為上調(diào)或者下調(diào)。算法再將這些預(yù)測(cè)的和疾病中實(shí)際觀察到的基因表達(dá)一一相比較,如果預(yù)測(cè)和觀察一致,則加分,反之則減分,對(duì)于沒(méi)有文獻(xiàn)證據(jù)或者關(guān)系模糊的基因關(guān)系,則分?jǐn)?shù)不變化。如此一來(lái),基本每個(gè)基因都會(huì)得到一個(gè)評(píng)分,這個(gè)評(píng)分結(jié)果,最高的便代表哪些基因的觀察結(jié)果和預(yù)測(cè)結(jié)果最為一致,也就是最有可能在此疾病過(guò)程中起到關(guān)鍵作用的基因。又或從另一角度來(lái)說(shuō),如果用藥物去調(diào)控這些基因的表達(dá),理論上可以影響它們大部分下游基因表達(dá)回到正常表達(dá)狀態(tài),從而起到治病的效果。因此這便是用計(jì)算方法篩選靶點(diǎn)的一種思路,跟前面選擇救美國(guó)還是救中國(guó)是一個(gè)道理(圖5B)。
需要說(shuō)明的是某個(gè)算法評(píng)分并不是唯一判斷依據(jù),生物系統(tǒng)非常復(fù)雜,實(shí)際研究中還要結(jié)合其他證據(jù)進(jìn)行強(qiáng)化分析。比如可以進(jìn)一步結(jié)合基因作用網(wǎng)絡(luò)的拓?fù)湫再|(zhì)對(duì)基因進(jìn)行權(quán)重分配,基因網(wǎng)絡(luò)的中心節(jié)點(diǎn)(key hub)一般會(huì)被認(rèn)為在疾病過(guò)程中所起作用比較大(圖5A)。這也符合我們一般的規(guī)律認(rèn)識(shí):在世界經(jīng)濟(jì)版圖中,美國(guó)和中國(guó)都是主要節(jié)點(diǎn),自然被考察的概率會(huì)更高一些,基因也是如此。此外還可以結(jié)合高通量測(cè)序和GWAS分析來(lái)進(jìn)一步縮小范圍,找出“嫌疑”最大的基因。只有這樣通過(guò)不斷強(qiáng)化的科學(xué)證據(jù)支持,才能說(shuō)服制藥公司的決策者們進(jìn)行下一步的行動(dòng)。因?yàn)樗帍S的每一次下步行動(dòng),從動(dòng)物實(shí)驗(yàn)到臨床試驗(yàn),都會(huì)耗費(fèi)巨大的資源和費(fèi)用,所以制藥公司總是期望早期研究能提供證據(jù)最強(qiáng),數(shù)目越少的基因作為候選靶點(diǎn)。但如果沿用以前傳統(tǒng)的實(shí)驗(yàn)加文獻(xiàn)查閱方法,評(píng)估完幾百個(gè)基因通常花好幾個(gè)月甚至幾年,費(fèi)時(shí)費(fèi)力。而Causal reasoning這樣的計(jì)算方法,便可以迅速地在幾分鐘內(nèi)推選出最相關(guān)的基因,極大地縮短研發(fā)時(shí)間。正是因?yàn)檫@種迅捷和強(qiáng)大,所以這個(gè)計(jì)算方法受到了很多制藥公司的青睞,成為了一種重要的分析方法。
圖6顯示了科睿唯安(原湯森路透)公司如何組合使用各種數(shù)據(jù)庫(kù)和計(jì)算方法來(lái)快速篩選和評(píng)估潛在的治療阿爾茲海默癥的藥物靶點(diǎn)。在這個(gè)分析流程里,第一步是首先通過(guò)傳統(tǒng)分析方法得到疾病狀態(tài)下表達(dá)變化顯著的基因(DEG)列表,而接下來(lái)第二步里的Metacore Key Pathway Advisor(KPA)則起到了非常關(guān)鍵的篩選和排序作用,KPA通過(guò)Causal reasoning和網(wǎng)絡(luò)拓?fù)湫再|(zhì)(Connectivity)對(duì)每個(gè)基因進(jìn)行評(píng)估和排序,再輔以信號(hào)通路的富集分析,便可以快速地從病人的樣本篩選出最具潛力的治療此病的藥物靶點(diǎn)(圖7),最后第三步則是結(jié)合有關(guān)靶點(diǎn)的成藥特性,潛在適應(yīng)癥,以及競(jìng)爭(zhēng)對(duì)手的研發(fā)情況等綜合考量,從而進(jìn)行g(shù)o or no-go的研發(fā)決策。
除了發(fā)現(xiàn)篩選靶點(diǎn)外,Causal reasoning還可以結(jié)合不同的數(shù)據(jù),組合不同算法,在藥物研發(fā)的各個(gè)階段發(fā)揮強(qiáng)大的預(yù)測(cè)作用,比如生物標(biāo)志物的發(fā)現(xiàn),藥物的副作用預(yù)測(cè),耐藥機(jī)制的研究和病人分類(lèi)等,這里限于篇幅原因不一一敘述。當(dāng)然這種算法的便捷和強(qiáng)大,是建立在完備的知識(shí)庫(kù)之上的,是建立在“工欲利其事,必先利其器”的指導(dǎo)思想下,事先進(jìn)行的基礎(chǔ)建設(shè)之上的。只有建好了先驗(yàn)知識(shí)庫(kù),很多像Causal reasoning這樣的基于貝葉斯理論的算法才能有用武之地。筆者以為,要成功應(yīng)用這個(gè)算法,高質(zhì)量和完善的知識(shí)庫(kù)是必不可少的。基因之間“激勵(lì)”和“抑制”關(guān)系的必須真實(shí)可靠,基因之間的相互作用關(guān)系要盡可能全。對(duì)于缺失和模糊的基因作用關(guān)系,還有待于更多基礎(chǔ)研究來(lái)和發(fā)表的文獻(xiàn)來(lái)驗(yàn)證。相信隨著這種知識(shí)庫(kù)的不斷完善,Causal reasoning的預(yù)測(cè)表現(xiàn)將會(huì)越來(lái)越精準(zhǔn),越來(lái)越多的強(qiáng)大算法也將不斷創(chuàng)造和發(fā)展出來(lái)。
本文作者朱成為賽諾菲高級(jí)信息研究科學(xué)家。
參考文獻(xiàn):
[1] Pollard J Jr, etal. (2005) A Computational Model to Define the Molecular Causes of Type 2 Diabetes Mellitus. Diabetes Technol Ther 2005, 7(2):323-36.
[2] Chindelevitch L, et al, Causal Reasoning on BiologicalNetworks: Interpreting Transcriptional Changes. Bioinformatics 2012, 28:1114-1121.