1. Introduction
相較于其他的生物醫(yī)學(xué)資料,生物醫(yī)學(xué)文獻(xiàn)具有以下特征:
(1)可獲得性:可從公開可用的數(shù)據(jù)庫 MEDLINE 和免費(fèi)搜索引擎 PubMed 中獲得;
(2)專業(yè)性:往往使用專業(yè)術(shù)語;
(3)多樣性:相同的概念有多種不同的表達(dá)方式;
(4)長度:新的生物醫(yī)學(xué)知識的內(nèi)容可能會很長,而且不盡相同。
生物醫(yī)學(xué)文獻(xiàn)挖掘(Biomedical literature mining,BLM)是指開發(fā)文本挖掘和自然語言處理(Nature language processing,NLP)技術(shù)從生物醫(yī)學(xué)文獻(xiàn)中自動提取和挖掘知識的領(lǐng)域。BLM 技術(shù)已成功應(yīng)用于生物醫(yī)學(xué)文獻(xiàn)檢索、生物醫(yī)學(xué)問答、臨床決策支持等領(lǐng)域。
在過去的十年中,來自生物醫(yī)藥信息學(xué)(Biomedical informatics,BMI)和計算機(jī)科學(xué)(Computer Science,CS)的研究人員在 BLM 領(lǐng)域做出了巨大的貢獻(xiàn)。一般來說,BMI 社區(qū)往往更多地關(guān)注具體的應(yīng)用問題,使用更具解釋性和描述性的方法;CS 社區(qū)則更追求卓越的性能和泛化能力,從而開發(fā)出更復(fù)雜、更通用的模型,致力于開發(fā)新算法。
近年來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,在包括 NLP 在內(nèi)的各種學(xué)科中顯示出強(qiáng)大的潛力。深度學(xué)習(xí)模型,如長短期記憶(Long Short-Term Memory,LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和來自變換器的雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)是命名實體識別(Named Entity Recognition,NER)和關(guān)系提取(Relation Extraction,RE)等 NLP 任務(wù)中的 SOTA(state-of-art)方法。
本文旨在綜述 BLM 的最新進(jìn)展,特別是各種深度學(xué)習(xí)技術(shù)。
分為五個不同的部分展開:生物醫(yī)學(xué)命名實體識別與歸一化(BioNER,BioNEN)、生物醫(yī)學(xué)文本分類、生物醫(yī)學(xué)關(guān)系提取(RE)、路徑提取、假設(shè)生成。
BioNER 和 BioNEN 是從生物醫(yī)學(xué)文獻(xiàn)中提取有意義和有趣的實體的最基本任務(wù);
RE 可以識別實體之間的關(guān)系;
生物醫(yī)學(xué)文本分類對于生物醫(yī)學(xué)文章分類和索引等任務(wù)至關(guān)重要;
路徑提取可以合并連接關(guān)系,并通過整合它們來生成路徑;
假說生成通過從生物醫(yī)學(xué)文獻(xiàn)中產(chǎn)生關(guān)于新的潛在的生物醫(yī)學(xué)發(fā)現(xiàn)的假說。
在這些任務(wù)中,BioNER 和 BioNEN 以及生物醫(yī)學(xué)文本分類是其他任務(wù)的基礎(chǔ),是實現(xiàn)包括 RE 在內(nèi)的其他下游任務(wù)的必要步驟。路徑提取和假設(shè)生成通常是在 RE 之上進(jìn)行的。圖2 說明了這些不同任務(wù)之間的層次關(guān)系。
表1 總結(jié)了這些任務(wù)所實現(xiàn)的 SOTA 性能及其相應(yīng)的模型。
2. BioNER 與 BioNEN
生物醫(yī)學(xué)命名實體識別(BioNER):為了將生物醫(yī)學(xué)文獻(xiàn)中的非結(jié)構(gòu)化文本結(jié)構(gòu)化以便于進(jìn)一步分析,一個根本的任務(wù)是準(zhǔn)確識別讀者感興趣的各種生物醫(yī)學(xué)實體,如化學(xué)成分、基因、蛋白質(zhì)、藥物、疾病、癥狀等。
有效的 NER 在一般的 NLP 中已被廣泛研究,BioNER 也是如此。BioNER 將文本中的實體識別為預(yù)定義的類別(例如疾病、化學(xué)物質(zhì)、基因等),是許多下游分析任務(wù)的基礎(chǔ),例如搜索引擎進(jìn)行索引、組織和鏈接生物醫(yī)學(xué)文檔,從生物醫(yī)學(xué)文獻(xiàn)中挖掘?qū)嶓w關(guān)系等。
BioNER 與 BioNEN 意義:由于高質(zhì)量的標(biāo)簽數(shù)據(jù)較少,以及文本中使用語言的多變性(縮寫、非標(biāo)準(zhǔn)化名稱(如藥物名稱)、冗長的描述性信息等等),構(gòu)建高性能(此處高性能以精確度和召回率等衡量)的 BioNER 系統(tǒng)是相當(dāng)具有挑戰(zhàn)性的,BioNEN 也成為一項關(guān)鍵任務(wù)。
2.1 任務(wù)定義
BioNER 與 BioNEN 的目標(biāo):
BioNER 的目標(biāo)是從文本中找到提到生物醫(yī)學(xué)實體的界限;
BioNEN 的目標(biāo)是將獲得的生物醫(yī)學(xué)命名實體映射到受控詞匯表中。
BioNER 與 BioNEN 的關(guān)系:
一方面,NEN 可以被認(rèn)為是 NER 的后續(xù)任務(wù),因為歸一化通常是針對 NER 的輸出結(jié)果進(jìn)行的;
另一方面,NER 和 NEN 都可以看作是序列標(biāo)注問題。
圖3 展示了 BioNER 和 BioNEN 任務(wù)的一個例子:
輸入:Takotsubo syndrome secondary to Zolmitriptan(包含1個疾病名稱 Takotsubo syndrome 和1個化學(xué)名稱 Zolmitritan);
輸出:該句子中每個單詞的 B-I-O(Begin-Inside-Outside)標(biāo)記和每個生物醫(yī)學(xué)實體的 ID。
B-I-O 標(biāo)記:將元素進(jìn)行定位和分類,將每個元素標(biāo)注為 B-X、I-X 或者 O。其中,B-X 表示此元素所在的片段屬于 X 類型并且此元素在此片段的開頭;I-X 表示此元素所在的片段屬于 X 類型并且此元素在此片段的中間位置,O 表示不屬于任何類型。
比如,將 X 表示為名詞短語(Noun Phrase, NP),則 B-I-O 的三個標(biāo)記為:
(1)B-NP:名詞短語的開頭
(2)I-NP:名詞短語的中間
(3)O:不是名詞短語https://blog.csdn.net/HappyRocking/article/details/79716212
2.2 BioNER 方法
傳統(tǒng)的 BioNER 方法大致可以分為三類:基于詞典的方法、基于語義的方法和統(tǒng)計方法。
基于詞典的方法使用術(shù)語匹配策略在文本中查找出現(xiàn)在詞典中的相同實體,因此該方法很難推廣到識別詞匯表之外的實體;
基于語義的方法需要豐富的領(lǐng)域知識來構(gòu)建識別命名實體的規(guī)則或模式;
統(tǒng)計方法將 NER 視為一個分類問題,并訓(xùn)練統(tǒng)計模型(如決策樹或支持向量機(jī),或基于馬爾可夫模型的序列標(biāo)注方法,如 HMM 和 CRFS)來實現(xiàn)目標(biāo)。
而深度學(xué)習(xí)技術(shù)可以在沒有其他特征工程的情況下以端到端的方式進(jìn)行訓(xùn)練,因此現(xiàn)在常用于 NER。
圖4 展示了 NER 的典型神經(jīng)網(wǎng)絡(luò)模型,該模型由以下幾層組成:
字符級嵌入:將每個單詞中的每個字符表示為一個向量;
CNN 層:對每個字符中編碼形態(tài)和詞匯的信息進(jìn)行特征提取,最終輸出每個詞的向量;
雙向長短期記憶網(wǎng)絡(luò)層(Bi LSTM):對醫(yī)學(xué)文本的長期依存結(jié)構(gòu)進(jìn)行建模,為序列中每個單詞計算兩個單獨(dú)的潛在嵌入向量,捕捉單詞序列的正向和反向語義依存關(guān)系,最后將這兩個向量連接起來;
解碼層:通過仿射變換轉(zhuǎn)換 BiLSTM 含義;
CRF 層:單詞序列的似然計算。
最近在 NLP 中流行的一個特定模型是 BERT 模型,其中主要的組成是Transformer。Transformer使用注意力機(jī)制學(xué)習(xí)句子中單詞間的上下文關(guān)系,由對文本輸入進(jìn)行編碼的編碼器和預(yù)測特定任務(wù)標(biāo)簽的解碼器兩個組件組成。BERT 是一種新型Transformer,在所有的注意力層中同時考慮左文和右文,預(yù)先訓(xùn)練來自未標(biāo)記文本深層的雙向標(biāo)記。
BERT 有預(yù)訓(xùn)練和微調(diào)兩個步驟:
在預(yù)訓(xùn)練過程中,模型通過預(yù)測文本中的掩蔽標(biāo)記和預(yù)測下一個句子等不同的預(yù)訓(xùn)練任務(wù)對大量未標(biāo)記文本進(jìn)行訓(xùn)練,與傳統(tǒng)的從左到右的語言建模目標(biāo)不同,BERT 的預(yù)訓(xùn)練包含預(yù)測隨機(jī)的掩蔽標(biāo)記和預(yù)測兩個句子是否相連兩個目標(biāo),這種設(shè)置與以前的從左到右或以雙向順序?qū)ξ谋拘蛄羞M(jìn)行編碼語言的建模研究非常不同;
在微調(diào)過程中,首先使用預(yù)訓(xùn)練的參數(shù)來初始化 BERT 模型,然后使用來自下游任務(wù)的標(biāo)記數(shù)據(jù)來微調(diào)所有參數(shù)。
Attention:https://zhuanlan.zhihu.com/p/43493999
Transformer:https://zhuanlan.zhihu.com/p/44121378
BERT:https://zhuanlan.zhihu.com/p/46652512
BERT 可以通過將每個標(biāo)記的輸出向量反饋到預(yù)測 NER 標(biāo)簽的分類層訓(xùn)練 NER 模型。Beltagy 等提出了一種基于 BERT 預(yù)訓(xùn)練的科學(xué)文本上下文嵌入模型 SciBERT,在 BioNER 基準(zhǔn)的 BC5CDR 和 NCBI-DISTY 數(shù)據(jù)集上都取得了 SOTA BioNER 的性能。BioBERT 利用 PubMed 的文章摘要和全文中的生物醫(yī)學(xué)文本訓(xùn)練了一個 BERT 模型,發(fā)現(xiàn) BioBERT 可以提高 BioNER 等生物醫(yī)學(xué) NLP 任務(wù)的性能。Peng 等人介紹了生物醫(yī)學(xué)語言理解評估的基準(zhǔn),并對幾條基線進(jìn)行了評估,發(fā)現(xiàn)在 PubMed 摘要和 Mimic-III 臨床記錄上預(yù)訓(xùn)練的 BERT 模型在 BioNER 上取得了最好的效果。
2.3 BioNEN 方法
BioNEN 往往假設(shè)命名實體已經(jīng)被識別,并將重點(diǎn)放在開發(fā)歸一化技術(shù)上。將 BioNEN 和歸一化視為兩個獨(dú)立的過程,BioNEN 的精度直接影響歸一化的性能。
例如,Kang 等人應(yīng)用基于規(guī)則的 NLP 技術(shù),改進(jìn)了生物醫(yī)學(xué)文本中疾病的歸一化。Leaman 等人開發(fā)了一個名為 DNorm 的系統(tǒng),通過對級排序?qū)W習(xí)對基于 CRF 的排序方法進(jìn)行疾病名稱歸一化。Lee 等人利用一種用于醫(yī)學(xué)名詞的字典查找方法。
2.4 BioNER 和 BioNEN 的聯(lián)合建模方法
近年來,由于 BioNER 和 BioNEN 之間的相互依賴關(guān)系,人們對它們的聯(lián)合建模進(jìn)行了研究。
學(xué)術(shù)研究者提出了許多方法,例如:
Semi-CRF :用于聯(lián)合實體識別和歧義消除,其中 Viterbi 譯碼用于分配詞性標(biāo)簽,同時歸一化非標(biāo)準(zhǔn)化標(biāo)記;
半馬爾可夫模型:用于關(guān)節(jié)疾病實體的識別和規(guī)范化;
聯(lián)合評分功能:使用精確推理和動態(tài)編程阻止非本地的特征:Leaman 等人通過將兩個獨(dú)立的機(jī)器學(xué)習(xí)模型集成為一個,開發(fā)了一種高性能的化學(xué)命名實體的 Recognizer 和 Normalizer;Lou 等人提出了一種基于轉(zhuǎn)移的疾病 NER 和歸一化聯(lián)合執(zhí)行模型,將輸出構(gòu)建過程轉(zhuǎn)化為增量狀態(tài)轉(zhuǎn)移過程;
Zhao 等人進(jìn)一步提出了一種具有顯式反饋策略的深層神經(jīng)多任務(wù)學(xué)習(xí)框架,結(jié)合了從低級任務(wù)(生物醫(yī)學(xué) NER)到高級任務(wù)(生物醫(yī)學(xué) NEN)的反饋策略,使任務(wù)層次結(jié)構(gòu)轉(zhuǎn)換為并行模式成為可能,同時保持了任務(wù)之間的相互支持。
2.5 挑戰(zhàn)
精確的 BioNER 和 BioNEN 面臨著許多挑戰(zhàn):
(1)同一實體的大量同義詞和替代表達(dá)導(dǎo)致了詞匯量的爆炸性增長;
(2)許多實體涉及長序列標(biāo)記,使得準(zhǔn)確檢測邊界變得更加困難;
(3)實體的非標(biāo)準(zhǔn)化縮寫和一詞多義或歧義。
BioNER:嵌套實體在生物醫(yī)學(xué)文本中很常見,其中不同的生物實體由彼此組成,然而目前的 BioNER 研究通常只關(guān)注最外層的實體。
BioNEN:即使在某些情況下可以將歸一化任務(wù)視為數(shù)據(jù)庫查找,但通常無法做到精確匹配。主要原因是生物醫(yī)學(xué)術(shù)語有很多變體:第一種是句法變化,其中所識別的實體與其在參考集中存在的規(guī)范形式包含相對較小的字符差異,例如不同的大小寫、單詞的重新排序、打字錯誤或錯誤(例如:FOXP2 和 FOX-P2);第二種是同一生物醫(yī)學(xué)術(shù)語的不同形式,如同義詞和縮略語;第三種是語義變異,即使在采用外部知識庫來獲得生物醫(yī)學(xué)實體的同義詞時,識別的實體也不存在于參考集中。
3. 生物醫(yī)學(xué)文獻(xiàn)分類
文本分類問題在 NLP 領(lǐng)域得到了廣泛的研究。在這一部分中,我們將回顧 BLM 中的文本分類研究。
3.1 任務(wù)定義
有兩種典型的生物醫(yī)學(xué)文獻(xiàn)分類任務(wù),相關(guān)主題識別和生物醫(yī)學(xué)文獻(xiàn)索引。相關(guān)主題識別確定生物醫(yī)學(xué)出版物是否與給定主題相關(guān),生物醫(yī)學(xué)文獻(xiàn)索引將一組術(shù)語分配給每一篇特定的生物醫(yī)學(xué)文章,以表示文章中提到的概念。
3.2 生物醫(yī)學(xué)文獻(xiàn)分類方法
傳統(tǒng)的相關(guān)主題識別研究采用經(jīng)典的機(jī)器學(xué)習(xí)模型,如有監(jiān)督機(jī)器學(xué)習(xí)模型、排序模型和本體匹配模型來實現(xiàn)這一目標(biāo)。
給生物醫(yī)學(xué)文章分配 MeSH 術(shù)語本質(zhì)上是一個多標(biāo)簽分類問題,將每個 MeSH 術(shù)語看做一個二進(jìn)制分類任務(wù),因此可以使用機(jī)器學(xué)習(xí)分類模型對生物醫(yī)學(xué)文獻(xiàn)進(jìn)行分類。
3.3 深度學(xué)習(xí)的最新進(jìn)展
深度神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展已被建立為生物醫(yī)學(xué)文本分類的 SOTA 模型。傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)模型需要人工特征工程,而深度學(xué)習(xí)模型可以直接接受原始文本輸入,并以端到端的方式工作。
許多基于深度學(xué)習(xí)方法的網(wǎng)格索引模型已被提出,通常包括兩個模塊:(1)神經(jīng)網(wǎng)絡(luò)用于產(chǎn)生每個網(wǎng)格項的似然分?jǐn)?shù);(2)分類器用于確定該項是否相關(guān)。
不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)被采用,包括多層前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、RNN、預(yù)訓(xùn)練的深度神經(jīng)語言模型(如 BERT 和 ELMO)、基于注意力的模型。值得一提的是,F(xiàn)ullMeSH 模型為每個部分訓(xùn)練了一個基于注意力的 CNN,在不頻繁的網(wǎng)格標(biāo)題上取得了 SOTA 性能。
3.4 挑戰(zhàn)
盡管生物醫(yī)學(xué)文本分類是一個經(jīng)典的課題,但仍然存在一些尚未完全解決的挑戰(zhàn):
(1)標(biāo)簽空間很大:有超過 29000 個網(wǎng)格術(shù)語用于索引生物醫(yī)學(xué)文章,使得在如此大的空間中進(jìn)行高效的多標(biāo)簽學(xué)習(xí)變得困難;
(2)標(biāo)簽之間的關(guān)系比較復(fù)雜;
(3)標(biāo)簽存在偏差:真實標(biāo)簽在訓(xùn)練數(shù)據(jù)集上很難精確,可能會影響學(xué)習(xí)的分類器的質(zhì)量,創(chuàng)建準(zhǔn)確而公正的訓(xùn)練數(shù)據(jù)集是一個挑戰(zhàn)。
4. BioRE
4.1 任務(wù)定義
生物醫(yī)學(xué)關(guān)系抽取(BioRE)是指對正文中不同的生物醫(yī)學(xué)概念之間的關(guān)系進(jìn)行檢測和分類,目標(biāo)是檢測實體對之間出現(xiàn)的預(yù)先指定類型的關(guān)系。與生物醫(yī)學(xué)實體的類型相比,實體關(guān)系的類型更加多樣。圖6 給出了生物醫(yī)學(xué)實體關(guān)系抽取的任務(wù)示例,輸入是一組句子,輸出是一組識別的關(guān)系。
現(xiàn)有的關(guān)于 BioRE 的研究很多。基于模板/規(guī)則的方法使用領(lǐng)域?qū)<业哪J剑ㄍǔJ钦齽t表達(dá)式的形式)從文本中提取關(guān)系和相關(guān)概念;自動模板構(gòu)建方法通過檢查概念對周圍的文本模式自動創(chuàng)建關(guān)系模板;統(tǒng)計方法通過尋找經(jīng)常同時出現(xiàn)的概念識別這些關(guān)系;基于 NLP 的方法執(zhí)行句子解析,以將文本分解成便于從中提取關(guān)系的結(jié)構(gòu)。
4.2 不同關(guān)系抽取任務(wù)的方法
將生物醫(yī)學(xué)關(guān)系提取分為4類:蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interactions,PPIs)、基因型-表型關(guān)系(genotype-phenotype relations,GPA)、化學(xué)-蛋白質(zhì)相互作用(chemical-protein interactions,CPI)和藥物-藥物相互作用(drug-drug interactions,DDI)。
4.2.1 蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interactions,PPIs)
PPI 對于理解復(fù)雜的疾病機(jī)制和設(shè)計適當(dāng)?shù)闹委煼椒ㄊ潜夭豢缮俚摹,F(xiàn)有的 PPI 提取方法有基于規(guī)則的和自動的。其中,共現(xiàn)就是基于規(guī)則的一種方法。這些方法假設(shè),如果兩個蛋白質(zhì)在同一句子/摘要中同時出現(xiàn),它們可能會相互作用。這些方法的一個潛在問題是,它們的假陽性率往往很高。后來的研究使用了人工指定的規(guī)則,可以大大降低假陽性率,但召回率低。
最近,機(jī)器學(xué)習(xí)方法被用于自動提取 PPI。通過從標(biāo)注文本中學(xué)習(xí)語言規(guī)則,機(jī)器學(xué)習(xí)技術(shù)在降低誤報率和提高覆蓋率方面都優(yōu)于基于規(guī)則的方法。例如,Huang 等開發(fā)了一種動態(tài)規(guī)劃算法,從詞性標(biāo)記器中提取帶有詞性標(biāo)簽的句子的模式;Kim 等人開發(fā)了一種基于核的方法來學(xué)習(xí)基因和蛋白質(zhì)-蛋白質(zhì)相互作用模式;Chowdhary 等人提出了一種基于貝葉斯網(wǎng)絡(luò)的非結(jié)構(gòu)化文本 PPI 三元組提取方法;Yu 等人提出利用 NLP 技術(shù)提取的每個 PPI 三元組之間的語法關(guān)系,構(gòu)造基于最短路徑的特征來構(gòu)建 PPI 提取的分類器。
4.2.2 基因型-表型關(guān)系(genotype-phenotype relations,GPA)
從生物醫(yī)學(xué)文獻(xiàn)中識別 GPA 在精確醫(yī)學(xué)中起著核心作用。關(guān)于物種類型的研究大多集中在人類基因和表型之間的聯(lián)系,關(guān)于實體類型的研究通常集中在特定的表型,如疾病和基因關(guān)聯(lián)。根據(jù)提取方法,也有基于模式的方法或基于學(xué)習(xí)的方法。
4.2.3 化學(xué)-蛋白質(zhì)相互作用(chemical-protein interactions,CPI)
CPI 識別人體內(nèi)化合物和蛋白質(zhì)之間的相互作用,是藥物發(fā)現(xiàn)和開發(fā)的一項基本任務(wù)。由于化合物和基因數(shù)量眾多,因此自動提取的方法就具有很大的吸引力。
Zhu 等人提出了一種基于化合物-靶點(diǎn)共現(xiàn)模式的概率模型,稱為混合體模型(MAM),用于挖掘文本中隱含的 CPI;Wariko 等人使用語言模式感知依存樹核來提取 CPI,F(xiàn)-Score 為 36.54 %;Long 等人通過分析句子結(jié)構(gòu),構(gòu)建了 CPI 二元對和三元組,挖掘了復(fù)雜的特征,F(xiàn)-Score 為 56.71 %。
4.2.4 藥物-藥物相互作用(drug-drug interactions,DDI)
DDI 鑒定是上市后藥物安全監(jiān)測或藥物安全監(jiān)視中的一項重要任務(wù)。DDI 檢測問題可以看作是一個二進(jìn)制分類問題。現(xiàn)有的 DDI 提取方法有基于共現(xiàn)的、基于規(guī)則的和機(jī)器學(xué)習(xí)的方法。
基于共現(xiàn)的方法根據(jù)兩種藥物的共現(xiàn)建立它們之間的關(guān)系;基于語言規(guī)則的方法將淺層解析和句法簡化與模式匹配相結(jié)合,如復(fù)句被分解成從句,從句中可以使用觸發(fā)詞或主謂賓語模式來識別它們之間的關(guān)系;隨著人工標(biāo)注語料庫可用性的提高,基于機(jī)器學(xué)習(xí)的方法,特別是基于深度神經(jīng)網(wǎng)絡(luò)的方法在 DDI 關(guān)系抽取任務(wù)中也得到了廣泛的應(yīng)用。
4.3 生物醫(yī)學(xué)知識庫管理
BioRE 可以支持生物醫(yī)學(xué)知識庫的精選,包括生物醫(yī)學(xué)實體和關(guān)系(如基因 A 抑制基因 B,基因 C 參與疾病 G),是生物醫(yī)學(xué)知識和關(guān)系抽取的自然集合。在這個話題上,Ren 等人開發(fā)了 iTextmine 系統(tǒng),包括一個自動化工作流程,可在大型文本語料庫上運(yùn)行多個文本挖掘工具,用于知識庫管理;Singhal 等人提出了一種通過從生物醫(yī)學(xué)文獻(xiàn)中提取疾病基因變異三元組來精選生物醫(yī)學(xué)知識庫的機(jī)器學(xué)習(xí)方法。
4.4 深度學(xué)習(xí)的最新進(jìn)展
RE 本質(zhì)上是一個分類問題,可以用經(jīng)典的有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)來解決。這些方法將人工特征作為輸入,例如表面特征、詞匯特征、句法特征或從現(xiàn)有本體派生的特征。同時,還探索了基于依賴樹的內(nèi)核的使用。但構(gòu)建有用的人工特征是困難和耗時的,所以最近一些研究調(diào)查了深層神經(jīng)網(wǎng)絡(luò)的使用,該研究詳細(xì)介紹了如何將 CNN 和 RNN 應(yīng)用于生物醫(yī)學(xué)關(guān)系抽取。
基于 CNN 的 RE 框架:主要由四層組成。CNN 層捕捉 N 元語法層次特征;嵌入層通過查找表將每個單詞轉(zhuǎn)換成嵌入向量;具有糾正線性單元 ReLU 激活的卷積層通過在單詞標(biāo)記上滑動過濾器將嵌入向量變換成特征映射;池化層通過選擇最高、最低或平均的特征值降低要素地圖向量的維度;多層感知器層(MLP 層)輸出每個關(guān)系的概率。在此框架下,Liu 等人提出了一種 DDI 提取方法。
基于 RNN 的 RE 框架:通過探索單詞序列中的長期和短期依存關(guān)系對文本進(jìn)行建模,提取詞匯和句子級別的特征,而不需要任何復(fù)雜的 NLP 預(yù)處理過程,如句法分析。RNN 可以直接代表基本的語言結(jié)構(gòu),即單詞序列和成分/依存關(guān)系樹。Hsieh 等人提出了一種新的基于 RNN 的詞語間長期關(guān)系獲取方法,用于識別 PPI。交叉驗證結(jié)果表明,該方法在最大的兩個語料庫 BioInfer 和 All 上的性能優(yōu)于現(xiàn)有方法,在這兩個數(shù)據(jù)集上的相對改進(jìn)分別為 10 % 和 18 %。
與以往側(cè)重于從單個句子中提取二元關(guān)系的研究相比,最近的研究更多針對的是跨多個句子的 N 元關(guān)系的提取。例如,Peng 等人探索了一種基于圖 LSTM 的跨句 N 元關(guān)系抽取的通用框架。圖形結(jié)構(gòu)使其很容易融入豐富的語言特征。在生物醫(yī)學(xué)語料庫上的實驗表明,超越句子邊界的抽取利用了更多的知識,而對如此豐富的語言知識進(jìn)行編碼可以獲得一致的性能提升。
BERT 模型在 RE 方面也被證明是非常成功的。Beltag 等人使用語義學(xué)者隨機(jī)挑選的 114 萬篇論文對 BERT 進(jìn)行微調(diào),建立了 SciBERT。語料庫包括 18 % 的 CS 論文和 82 % 的生物醫(yī)學(xué)論文。在 RE 方面,SciBERT 獲得了與 SOTA 模型相當(dāng)?shù)慕Y(jié)果。Lee等人提出了 BioBERT,這是一種生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練的語言表示模型。圖9 說明了預(yù)訓(xùn)練和微調(diào) BioBERT 的整個過程。
首先,用通用領(lǐng)域語料庫上預(yù)訓(xùn)練的 BERT 初始化 BioBERT。然后,對 BioBERT 進(jìn)行生物醫(yī)學(xué)文本的預(yù)訓(xùn)練,在幾個生物醫(yī)學(xué)語料庫上進(jìn)行進(jìn)一步的微調(diào),以執(zhí)行 BLM 任務(wù)。BioBERT 只需要有限數(shù)量的特定任務(wù)的參數(shù),但比 SOTA 模型高出 3.49 F1 score。SciBERT 和 BioBERT 共享相同的基本 BERT 模型架構(gòu),如圖5 所示。
4.5 挑戰(zhàn)
與一般領(lǐng)域的 RE 任務(wù)相比,BioRE 有幾個挑戰(zhàn):
(1)生物醫(yī)學(xué)實體的非標(biāo)準(zhǔn)表達(dá)變體;
(2)一般的 RE 模型通常從文本中提取二元關(guān)系,但醫(yī)學(xué)文獻(xiàn)中涉及的關(guān)系可以是一元、二元或 N 元關(guān)系,其中多個實體包含在單個關(guān)系中;
(3)由于生物醫(yī)學(xué)關(guān)系對領(lǐng)域?qū)I(yè)知識的要求,缺少標(biāo)注良好的生物醫(yī)學(xué)關(guān)系,使得充分訓(xùn)練復(fù)雜的深度學(xué)習(xí)模型具有挑戰(zhàn)性;
(4)生物醫(yī)學(xué)領(lǐng)域不斷有新發(fā)現(xiàn)出現(xiàn),開發(fā)識別新的看不見的關(guān)系的模型具有挑戰(zhàn)性。
5. 生物醫(yī)學(xué)路徑提取
5.1 任務(wù)定義
生物路徑是細(xì)胞中分子之間的一系列行為,導(dǎo)致細(xì)胞中產(chǎn)生物質(zhì)或發(fā)生變化。路徑還可以開啟和關(guān)閉基因,或者刺激細(xì)胞移動。生物醫(yī)學(xué)路徑對于理解癌癥等復(fù)雜疾病的潛在機(jī)制至關(guān)重要。大多數(shù)路徑知識都包含在自由文本(如生物醫(yī)學(xué)文獻(xiàn))中,需要大量的人力來解析。因此,開發(fā)從生物醫(yī)學(xué)文獻(xiàn)中自動提取生物醫(yī)學(xué)路徑的計算方法是非常必要的。
生物路徑涉及不同的實體(如基因、基因產(chǎn)物)和小分子(如代謝物)之間的相互作用,如轉(zhuǎn)錄調(diào)節(jié)(如轉(zhuǎn)錄起始中的轉(zhuǎn)錄因子結(jié)合)和翻譯后調(diào)節(jié)(如蛋白活性調(diào)節(jié)的激酶磷酸化)。現(xiàn)有的大多數(shù)研究都集中在信號轉(zhuǎn)導(dǎo)和基因調(diào)控等靜態(tài)途徑上,而不是代謝網(wǎng)絡(luò)和動力學(xué)。
圖10 顯示了從生物醫(yī)學(xué)文獻(xiàn)中提取癌癥路徑的示例。每個節(jié)點(diǎn)代表一個基因或基因產(chǎn)物,每條邊代表一個相互作用。
路徑提取任務(wù)通常被描述為分類問題,即將每個提取的成對關(guān)系分類為明確定義的關(guān)系類型,合并這些提取的關(guān)系得到最終的通路結(jié)構(gòu)。
5.2 方法
許多現(xiàn)有的路徑提取研究都是基于規(guī)則的系統(tǒng),但是手工生成的規(guī)則提取昂貴、耗時且召回率低。此外還有機(jī)器學(xué)習(xí)的方法可以執(zhí)行有效的自動規(guī)則工程,但它們需要大規(guī)模的標(biāo)注示例才能達(dá)到滿意的性能。因此許多學(xué)術(shù)者提出了從現(xiàn)有知識庫中進(jìn)行遠(yuǎn)程監(jiān)督的方法、同時利用基于規(guī)則和機(jī)器學(xué)習(xí)混合的方法。
在精確醫(yī)學(xué)時代,除了生物路徑,蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因-疾病-藥物相互作用網(wǎng)絡(luò)等其他結(jié)構(gòu)也是生物醫(yī)學(xué)研究人員感興趣的。然而,目前還沒有直接從文獻(xiàn)中自動提取這種網(wǎng)絡(luò)結(jié)構(gòu)的研究,而目前的研究通常是先提取成對關(guān)系,然后離線進(jìn)行集成。
5.3 深度學(xué)習(xí)的潛在應(yīng)用
目前還沒有利用深度學(xué)習(xí)技術(shù)解決路徑提取的問題,主要原因是沒有公開可用的訓(xùn)練數(shù)據(jù),使得訓(xùn)練有監(jiān)督的深度學(xué)習(xí)模型很難實現(xiàn)。但如果有足夠的訓(xùn)練數(shù)據(jù),那一些基本的深度方法如 RNN、CNN 等都可以用于生物醫(yī)學(xué)路徑提取。
5.4 挑戰(zhàn)
計算路徑提取系統(tǒng)的一個主要挑戰(zhàn)是用戶的參與不足,盡管某些系統(tǒng)提供了一種與用戶交互的方式,但是由于以下原因,難以在沒有任何用戶干預(yù)的情況下實現(xiàn)全自動通路提取系統(tǒng):
(1)生物醫(yī)學(xué)文獻(xiàn)具有多樣且復(fù)雜的表達(dá)方式,使得很難準(zhǔn)確地提取通路;
(2)提取結(jié)果的低準(zhǔn)確性阻礙了系統(tǒng)的進(jìn)一步利用;
(3)缺少一些必要的上下文信息,例如交互條件;
(4)不斷變化的需求使得系統(tǒng)很難迅速適應(yīng);
(5)科學(xué)出版物中的許多單句往往涉及多個生物醫(yī)學(xué)實體。
6 生物醫(yī)學(xué)假說生成
6.1 任務(wù)定義
假設(shè)生成,也被稱為基于文獻(xiàn)的發(fā)現(xiàn)(literature-based discovery,LBD),用計算方法從文獻(xiàn)中獲得新的生物醫(yī)學(xué)發(fā)現(xiàn)。
假設(shè)生成的目標(biāo)是利用已發(fā)表的文章,檢測文本中不存在的潛在關(guān)系,通過其他顯性關(guān)系的存在推斷出新的生物醫(yī)學(xué)知識。具體地說,假設(shè)生成通常指的是將以前被認(rèn)為不相關(guān)的兩條知識連接起來的過程。例如,我們可能知道 A 型疾病是由化學(xué)物質(zhì) B 引起的,而藥物 C 可以減少體內(nèi)化學(xué)物質(zhì)B的含量。然而,由于各自的文章是彼此分開發(fā)表的(不相交數(shù)據(jù)),疾病 A 和藥物 C 之間的關(guān)系可能是未知的。假設(shè)生成的目的是從生物醫(yī)學(xué)文章中檢測這些隱含的關(guān)系。圖11 給出了通過推斷看不見的關(guān)系來生成假設(shè)的示例。
生物醫(yī)學(xué)假設(shè)生成不同于 RE。RE 側(cè)重于提取文本中明確確定的實體之間的關(guān)系,而假設(shè)生成試圖揭示未知的關(guān)系。
6.2 問題設(shè)置
假設(shè)生成的核心目標(biāo)是基于文本語料庫預(yù)測兩個生物醫(yī)學(xué)術(shù)語之間的可能關(guān)系。與典型的基于三角形閉合模型或正半定圖核的鏈接預(yù)測問題不同,假設(shè)生成的目的是以連接項的形式提供理論基礎(chǔ)和證據(jù)。問題設(shè)置有封閉式發(fā)現(xiàn)和開放式發(fā)現(xiàn)兩種變體,前者使人們能夠執(zhí)行驗證性分析,而后者用于需要更多探索性范式的場景。
比如:
“魚油和雷諾氏病有聯(lián)系嗎?”是一個封閉的發(fā)現(xiàn)問題,答案可能是肯定的,也可能是否定的。如果答案是肯定的,下面的步驟應(yīng)該是確定支持這一主張的證據(jù)。
“雷諾氏病有哪些治療選擇?”是一個開放的發(fā)現(xiàn)問題。需要通過探索雷諾病作為潛在治療適應(yīng)癥的所有概念來獲得答案。這類問題通常有一個基礎(chǔ)的生物醫(yī)學(xué)概念和一個元類型定義可能出現(xiàn)在另一邊的術(shù)語的特征。
藥物再利用:指將疾病靶點(diǎn)確定為現(xiàn)有藥物的潛在替代適應(yīng)癥的過程,成功的藥物再利用可以為藥物開發(fā)節(jié)省大量的時間和財務(wù)成本,因為它不需要經(jīng)歷最初的體內(nèi)和部分體外階段。例如,新冠肺炎現(xiàn)在是一種全球性的流行病,迫切需要發(fā)展有效的治療方法,而完全從頭發(fā)現(xiàn)藥物非常耗時。最初開發(fā)用于治療埃博拉病毒的藥物雷米德韋已經(jīng)證明對治療新冠肺炎有效,最初開發(fā)用于瘧疾治療的羥基氯喹也是如此。LBD 可以為藥物再利用過程提供必要的幫助。Andronis 等人回顧了各種對檢測生物醫(yī)學(xué)實體之間隱藏聯(lián)系至關(guān)重要的 LBD 方法,并建議可視化技術(shù)可以幫助科學(xué)家進(jìn)行測試。Tari 等人利用聲明性編程語言 AnsProlog 實現(xiàn)了對藥物適應(yīng)癥間接關(guān)系不完全信息的自動推理。他們還介紹了幾個公開可用的知識資源,如化學(xué)結(jié)構(gòu)、副作用和識別替代藥物適應(yīng)癥的信號通路。
藥物警戒:指與藥品不良反應(yīng)的收集、檢測、評估、監(jiān)測和預(yù)防有關(guān)的藥理學(xué)科學(xué)。Shang 等人開發(fā)了一種可擴(kuò)展的 LBD 方法,使用分布統(tǒng)計來推斷并應(yīng)用發(fā)現(xiàn)模式來評估藥物/不良藥物反應(yīng)對用于藥物警戒的可信性。Hristovski 等人介紹了一種通過將藥物與不良反應(yīng)聯(lián)系起來的基因或蛋白質(zhì)為已知不良反應(yīng)提供藥理學(xué)和藥物基因組學(xué)解釋的工具。Mower 等人將機(jī)器學(xué)習(xí)分類器應(yīng)用于從文獻(xiàn)中提取的關(guān)系的高維表示作為識別證實的藥物/不良藥物反應(yīng)對的方法,通過評估機(jī)器學(xué)習(xí)分類器擴(kuò)展了這一范式。
6.3 方法
ABC 共現(xiàn)模型:大多數(shù) LBD 系統(tǒng)都是基于或派生自 Swanson 的 ABC 共現(xiàn)模型。顯性知識以 “A 暗示 B” 和 “B 暗示 C” 的形式編碼在文本中,隱含知識可以通過得出 “因此 A 蘊(yùn)含 C” 的結(jié)論來發(fā)現(xiàn)。例如,在具有血液粘度和血管反應(yīng)性的文章中提到了食用魚油,這兩個術(shù)語在雷諾氏病的文章中也有提及,推論食用魚油可能與雷諾氏病有關(guān)。
目前,已經(jīng)開發(fā)了各種工具使用 ABC 共現(xiàn)模型來生成假設(shè)。例如:從 MEDLINE 摘要標(biāo)題中的生物醫(yī)學(xué)術(shù)語的共現(xiàn)識別現(xiàn)有的關(guān)聯(lián)、利用全面的文本和結(jié)構(gòu)知識來推斷因果假設(shè)等等。
其他 LBD 的方法:稀有性原則著眼于不常見的共現(xiàn)詞語,而不是頻繁共現(xiàn)的詞語;基于文獻(xiàn)計量學(xué)的系統(tǒng)使用引用信息來查找鏈接和目標(biāo)文獻(xiàn);Sang 等人研究了一種基于生物醫(yī)學(xué)知識圖譜的 LBD 藥物發(fā)現(xiàn)方法。
圖13 顯示了 LBD 典型的端到端流程圖,由于這些模塊的級聯(lián)性質(zhì),假設(shè)生成模塊的輸出質(zhì)量將影響最終結(jié)果的整體質(zhì)量。
輸入:一對醫(yī)學(xué)術(shù)語;
假設(shè)生成模塊:列出一組假設(shè),通過中介將兩個輸入聯(lián)系起來(如:魚油→β-血栓球蛋白→雷諾病);
排名模塊:生成假設(shè);
輸出:將假設(shè)提供給終端用戶進(jìn)行進(jìn)一步的驗證,生成的假設(shè)可以通過排序模塊的工具和算法進(jìn)行排序。
6.4 深度學(xué)習(xí)的潛在應(yīng)用
大多數(shù)關(guān)于假設(shè)生成的研究都是基于 ABC 模型的。因為 LBD 過程的高可解釋性要求,深度學(xué)習(xí)模型很少直接用于這項任務(wù)。在有效的深度學(xué)習(xí)可解釋性機(jī)制下,深度學(xué)習(xí)模型應(yīng)該能夠在假設(shè)生成上獲得更好的數(shù)值性能。
6.5 挑戰(zhàn)
(1)基于 ABC 共現(xiàn)等方法的假設(shè)過于簡單,無法捕捉到生物醫(yī)學(xué)過程的復(fù)雜性;
(2)許多現(xiàn)有的 LBD 方法和系統(tǒng)開發(fā)的目的都是研究目的,而缺乏在實際環(huán)境中的應(yīng)用,例如基礎(chǔ)科學(xué)研究、制藥研究和開發(fā)以及臨床護(hù)理等;
(3)生物醫(yī)學(xué)文章的內(nèi)容可能偏向于它們的專業(yè)學(xué)科,不同文章的發(fā)現(xiàn)可能會相互矛盾,很難獲取可靠的假設(shè)。