基于新標(biāo)注模式的實(shí)體和關(guān)系聯(lián)合抽取方法

翻譯自http://xueshu.baidu.com/s?wd=paperuri%3A%28a56c446f2f5e2be9e4679f95639f0b7c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1706.05075&ie=utf-8&sc_us=17253617220887579359

摘要

聯(lián)合抽取實(shí)體和關(guān)系是信息抽取中的一項(xiàng)重要任務(wù)。為了解決這一問題,我們首次提出了一種能夠把聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)注問題的新標(biāo)注模式。然后,基于新標(biāo)注模式,我們學(xué)習(xí)不同的end-to-end的模型來直接抽取實(shí)體和實(shí)體關(guān)系,而不需要分開來識別實(shí)體和關(guān)系。我們用遠(yuǎn)程監(jiān)督方法在公共數(shù)據(jù)集上做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明這種基于標(biāo)注的方法比大多數(shù)已存在的串行式和聯(lián)合式的學(xué)習(xí)方法要好。甚至,論文中提出的這種end-to-end的模型在公共數(shù)據(jù)集熵取得了最好的結(jié)果。

1 介紹

聯(lián)合抽取實(shí)體和關(guān)系是為了從非結(jié)構(gòu)化的文本中同時識別命名實(shí)體和實(shí)體之間的語義關(guān)系。不同于其關(guān)系詞是從給定的句子中進(jìn)行抽取的開放信息抽取(Open IE),在聯(lián)合抽取任務(wù)中,關(guān)系詞是從可能沒在給出的句子中出現(xiàn)的預(yù)定義好的關(guān)系集合中抽取的。這在知識抽取和知識庫構(gòu)建中是一個很重要的問題。
傳統(tǒng)的處理這種處理實(shí)體和關(guān)系抽取的方法是串聯(lián)式的。即先抽取實(shí)體,然后識別實(shí)體間的關(guān)系。這種分開來處理的方式比較簡單,而且各個模塊都比較靈活。但是這種方法忽視了兩個任務(wù)之間的聯(lián)系,實(shí)體識別的結(jié)果可能會影響關(guān)系的抽取。


圖1

不同于串聯(lián)式的方法,聯(lián)合抽取是用一個模型來抽取實(shí)體和關(guān)系。這種方式可以有效的整合實(shí)體和關(guān)系信息,并且達(dá)到一個很好的效果。然而,現(xiàn)有的聯(lián)合抽取方法大多都是基于特征來實(shí)現(xiàn)的,并且非常依賴其他可能會引入誤差的NLP工具。為了減少人工抽取特征工作,提出基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型來聯(lián)合抽取實(shí)體和關(guān)系。盡管這些模型能夠在同一個模型當(dāng)中共享實(shí)體抽取和關(guān)系抽取的參數(shù),但是實(shí)體和關(guān)系抽取是分開進(jìn)行的而且容易產(chǎn)生冗余信息。例如圖一中的句子包含三個實(shí)體:“美國”,“特朗普”和“蘋果公司”。但是只有“美國”和“特朗普”之間有一個“國家總統(tǒng)”的關(guān)系。實(shí)體“蘋果公司”與其它實(shí)體之間沒有明顯的關(guān)系。因此,這句話的抽取結(jié)果應(yīng)該是{美國, 國家-總統(tǒng), 特朗普},我們稱之為三元組。
在這篇論文中,我們的研究點(diǎn)在于由兩個實(shí)體以及兩個實(shí)體間關(guān)系組成的三元組的抽取。因此,我們直接對三元組進(jìn)行建模,而不是分別對實(shí)體和關(guān)系進(jìn)行建模。基于此,我們提出了標(biāo)注模式和end-to-end模型來處理這個問題。我們設(shè)計了一種新的包含了實(shí)體和關(guān)系的標(biāo)簽。基于這種標(biāo)注模式,把聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)注問題。通過這種方法,我們能夠簡單地使用神經(jīng)網(wǎng)絡(luò)來建模而無需復(fù)雜的特征工程。
最近,基于LSTM的end-to-end模型已經(jīng)被成功運(yùn)用到各種標(biāo)注任務(wù),如命名實(shí)體識別等。LSTM能夠?qū)W習(xí)長詞,這對句子模型很有好處。因此,基于新的標(biāo)注方法,我們學(xué)習(xí)用不同的end-to-end模型來解決問題。為了適應(yīng)特殊標(biāo)簽,我們還通過增加一個偏置損失函數(shù)來修改解碼方法。
我們提出的方法是一個監(jiān)督學(xué)習(xí)算法。實(shí)際上,手工標(biāo)注包含大量實(shí)體和關(guān)系的數(shù)據(jù)集的這一過程是很花費(fèi)時間并且容易出錯的。因此,我們在公開數(shù)據(jù)集來進(jìn)行我們的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明我們的標(biāo)注模式是有效的。另外,我們的end-to-end模型在公開數(shù)據(jù)集熵達(dá)到了最好的效果。
這篇論文的主要貢獻(xiàn)在于:
(1)提出了新的標(biāo)注方法,可以把聯(lián)合抽取實(shí)體和關(guān)系的任務(wù)轉(zhuǎn)換為標(biāo)注任務(wù)。(2)基于新的標(biāo)注方法,我們學(xué)習(xí)用不同的end-to-end模型來解決問題。(3)對于end-to-end模型增加了偏置損失函數(shù),增強(qiáng)了相關(guān)實(shí)體之間的聯(lián)系。

2 相關(guān)工作

識別和關(guān)系抽取是構(gòu)建知識圖譜的重要一步,對很多NLP任務(wù)都有好處。主要有兩種方法廣泛的被應(yīng)用與實(shí)體和關(guān)系的抽取任務(wù),一種是串聯(lián)式的,另一種是聯(lián)合式的。
串聯(lián)式方法把這一任務(wù)分解為兩個不同的子任務(wù),既命名實(shí)體識別(NER)和關(guān)系分類(RC)。傳統(tǒng)的NER模型是線性統(tǒng)計模型,例如隱馬爾科夫(HMM)模型和條件隨機(jī)場(CRF)模型。最近一些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也被成功應(yīng)用到NER中,這被當(dāng)做是序列標(biāo)注任務(wù)。已有的RC方法也可以被分為基于手工構(gòu)造特征的方法和神經(jīng)網(wǎng)絡(luò)方法。
聯(lián)合抽取實(shí)體和關(guān)系使用的是單個模型。大多數(shù)聯(lián)合式方法是基于特征來實(shí)現(xiàn)的,最近使用基于LSTM的模型能夠減少人工工作。
不同于以上的方法,這篇論文中提出的方法是基于特殊標(biāo)注方式的,因此我們使用end-to-end模型而不需要NER和RC。End-to-end模型是把輸入句子映射一個有意義向量中然后再生成一個序列。它被廣泛應(yīng)用于機(jī)器翻譯和序列標(biāo)注任務(wù)。大多數(shù)方法都使用雙向LSTM對輸入句子進(jìn)行編碼,但是解碼方法總是不同的。例如,使用一個CRF層解碼標(biāo)簽序列,同時應(yīng)用LSTM層來產(chǎn)生標(biāo)簽序列。

3 方法

我們提出了一種帶有偏置損失函數(shù)的新標(biāo)注模式來聯(lián)合抽取實(shí)體和關(guān)系。這一部分,我們首先介紹如何把抽取問題轉(zhuǎn)換為標(biāo)注問題,然后詳述該模型。


圖2

3.1 標(biāo)注模型

圖2是如何標(biāo)記結(jié)果的示例。為每個單詞分配一個有助于提取結(jié)果的標(biāo)簽,標(biāo)簽“O”表示“其他”標(biāo)簽,這意味著對應(yīng)的單詞與提取的結(jié)果無關(guān)。除了“O”之外,其他標(biāo)簽由三部分組成:實(shí)體中的單詞位置,關(guān)系類型和關(guān)系角色。我們使用“BIES”(開始,內(nèi)部,結(jié)束,單個)標(biāo)志來表示實(shí)體中單詞的位置信息。關(guān)系類型信息是從一組預(yù)定的關(guān)系中獲得的,并且關(guān)系角色信息由數(shù)字“1”和“2”表示。提取的結(jié)果由三元組表示:(Entity1,RelationType,Entity2)。 “1”表示該詞屬于三元組中的第一個實(shí)體,而“2”屬于關(guān)系類型后面的第二個實(shí)體。因此,標(biāo)簽的總數(shù)為$N_{t} = 2 * 4 * | R | + 1$,其中| R |是預(yù)定義關(guān)系集的大小。圖2是說明我們的標(biāo)記方法的示例。 輸入句子包含兩個三元組:{美國,國家-總統(tǒng),特朗普}和{蘋果公司,公司-創(chuàng)始人,史蒂文·保羅·喬布斯,其中“國家總統(tǒng)”和“公司創(chuàng)始人”是預(yù)定義的關(guān)聯(lián)類型。 “聯(lián)合”,“國家”,“特朗普”,“蘋果”,“公司”,“史蒂文”,“保羅”和“喬布斯”都與最終提取的結(jié)果相關(guān)。 因此,它們是基于我們的特殊標(biāo)簽來標(biāo)記的。 例如,“聯(lián)合”這個詞是“美國”這個實(shí)體的第一個詞,與“國家總統(tǒng)”有關(guān),所以它的標(biāo)簽是“B-CP-1”。 對應(yīng)于“美國”的另一個實(shí)體“特朗普”被標(biāo)記為“S-CP-2”。 另一方面,與最終結(jié)果無關(guān)的其他詞語標(biāo)記為“O”。

3.2 從標(biāo)簽序列抽取結(jié)果

從圖2的標(biāo)簽序列,我們知道“特朗普”和“美國”共享相同的關(guān)系類型“國家-總統(tǒng)”,“蘋果公司”和“史蒂文·保羅·喬布斯”共享相同的關(guān)系類型“公司-創(chuàng)始人”。 我們將具有相同關(guān)系類型的實(shí)體組合成三元組以獲得最終結(jié)果。 因此,“特朗普”和“美國”可以組合成一個關(guān)系類型是“國家總統(tǒng)”的三元組。 因?yàn)椤疤乩势铡钡年P(guān)系角色是“2”,“美國”是“1”,最終的結(jié)果是{美國,國家-總統(tǒng),特朗普}。 這同樣適用于{蘋果公司,公司-創(chuàng)始人,史蒂文·保羅·喬布斯}。
此外,如果一個句子包含兩個或更多個具有相同關(guān)系類型的三元組,那么我們根據(jù)最近原則將每兩個實(shí)體組合成一個三元組。 例如,如果圖2中的關(guān)系類型“國家總統(tǒng)”是“公司創(chuàng)始人”,則在給定句子中將有四個實(shí)體具有相同的關(guān)系類型。 “美國”最接近實(shí)體“特朗普”,“蘋果公司”最接近“喬布斯”,結(jié)果將是{美國,公司-創(chuàng)始人,特朗普}和{蘋果公司,公司-創(chuàng)始人, 史蒂文·保羅·喬布斯}。
在這篇論文中,我們僅考慮一個實(shí)體只屬于一個三元組這種情況,把重疊關(guān)系識別的任務(wù)放到未來的工作中。

3.3 End-to-end模型

近年來,基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型被廣泛應(yīng)用于序列標(biāo)簽任務(wù)中。在本文中,我們調(diào)查端到端模型來生成標(biāo)簽序列,如圖3所示, 它包含一個用于對輸入語句進(jìn)行編碼的雙向長短期記憶(Bi-LSTM)層和一個基于LSTM具有偏置損失函數(shù)的解碼層。偏置損失函數(shù)可以增強(qiáng)實(shí)體標(biāo)簽的相關(guān)性。

3.3.1 雙向LSTM編碼層

圖3

在序列標(biāo)注問題中,Bi-LSTM編碼層已經(jīng)顯示了捕獲每個單詞的語義信息的有效性。它包含了前向lstm層,向后lstm層和連接層。詞嵌入層將具有1-hot表示的單詞轉(zhuǎn)換為嵌入向量。 因此,一個詞序列可以表示為W = {w1,... wt,wt + 1 ... wn},其中$w_{t}\in R^qahetpl$是對應(yīng)于d維字向量中的第t個詞,n是給定句子的長度。字嵌入層后,有兩個平行的LSTM層:前向LSTM層和后向LSTM層。 LSTM體系結(jié)構(gòu)由一組循環(huán)連接的子網(wǎng)組成,稱為內(nèi)存塊。 每個時間步長是一個LSTM內(nèi)存塊。Bi-LSTM編碼層中的LSTM存儲塊用于基于先前的隱藏向量$h_{t-1}$,先前的小區(qū)向量$c_{t-1}$和當(dāng)前輸入字嵌入$w_{t}$來計算當(dāng)前隱藏向量$h_{t}$。其結(jié)構(gòu)圖如圖3所示,詳細(xì)操作定義如下:



其中i,f和o分別是輸入門,忘記門和輸出門,b是偏置項(xiàng),c是單元存儲器,W(.)是參數(shù)。 對于每個單詞$w_{t}$,前向LSTM層將通過考慮從$w_{1}$到$w_{0}$的上下文信息來編碼$w_{t}$,其被標(biāo)記為
。 以類似的方式,后向LSTM層將基于從$w_{n}$到$w_{t}$的上下文信息來編碼$w_{t}$,其被標(biāo)記為
。最后,我們連接


來表示t的編碼信息,表示為


3.3.2 LSTM解碼層

我們還采用LSTM結(jié)構(gòu)來生成標(biāo)簽序列。當(dāng)檢測到單詞$w_{t}$的標(biāo)簽時,解碼層的輸入是:從Bi-LSTM編碼層得到的$h_{t}$,前一個預(yù)測標(biāo)簽嵌入$T_{t-1}$,前一個單元值${c_{t-1}}{(2)}$,前一個解碼層的隱藏向量${h_{t-1}}{(2)}$。 $LSTM_m8qync6$內(nèi)存塊的結(jié)構(gòu)圖如圖3(c)所示,詳細(xì)操作定義如下:


最后通過softmax計算基于標(biāo)簽預(yù)測向量$T_{t}$計算歸一化的實(shí)體標(biāo)簽概率:

其中$W_{y}$是softmax矩陣,$N_{t}$是標(biāo)簽數(shù)量。因?yàn)門類似于標(biāo)簽嵌入,LSTM能夠?qū)W習(xí)長期依賴性,因此解碼方式可以建立標(biāo)簽交互。

3.3.3 偏置目標(biāo)函數(shù)

我們訓(xùn)練我們的模型以最大化數(shù)據(jù)的對數(shù)似然,我們使用的優(yōu)化方法是Hinton在2012年中提出的RMSprop。 目標(biāo)函數(shù)可以定義為:


其中|D|是訓(xùn)練集的大小,$L_{j}$是句子$x_{j}$的長度,${y_{t}}{(j)}$是句子$x_{j}$中詞t的標(biāo)簽,${p_{t}}{(j)}$是公式15中定義好的標(biāo)簽的歸一化概率。此外,I(O)是一個切換函數(shù),用于區(qū)分可以指示結(jié)果的標(biāo)簽“O”和關(guān)系標(biāo)簽的損失量。 定義如下:

α是偏置權(quán)重。α越大,其對模型中關(guān)系標(biāo)簽的影響越大。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

4.1.1 數(shù)據(jù)集

為了評估我們的方法的性能,我們使用由遠(yuǎn)程監(jiān)督方法生成的公共數(shù)據(jù)集NYT2(Ren et al.,2017)。通過遠(yuǎn)程監(jiān)控方法可以獲得大量的培訓(xùn)數(shù)據(jù),無需手動標(biāo)注,雖然手動標(biāo)注測試集可以確保其質(zhì)量。 總共訓(xùn)練數(shù)據(jù)包含353000個三元組,測試集包含3880個三元組。 此外,關(guān)系集的大小是24。

4.1.2 評估

我們采用標(biāo)準(zhǔn)精度(Prec),召回(Rec)和F1值來評估結(jié)果。與傳統(tǒng)方法不同,我們的方法可以提取三元組而不需要知道實(shí)體類型信息。 換句話說,我們沒有使用實(shí)體類型的標(biāo)簽來訓(xùn)練模型,因此我們不需要在評估中考慮實(shí)體類型。當(dāng)它的關(guān)系類型和兩個對應(yīng)實(shí)體的頭部偏移都是正確時,三元組被認(rèn)為是正確的。此外,如Ren等人所做的,提出了ground-truth關(guān)系并且排除“None”標(biāo)簽。我們通過從測試集中隨機(jī)抽取10%的數(shù)據(jù)創(chuàng)建一個驗(yàn)證集,并使用剩余的數(shù)據(jù)作為評估。 我們對每個實(shí)驗(yàn)運(yùn)行10次,然后報告平均結(jié)果及其標(biāo)準(zhǔn)差,如表1所示。


表1

4.1.3 超參數(shù)

我們的模型由Bi-LSTM編碼層和具有偏置目標(biāo)函數(shù)的LSTM解碼層組成。在編碼部分中使用的詞嵌入是通過在NYT訓(xùn)練語料庫上運(yùn)行word2vec來初始化的。詞嵌入的維數(shù)為d = 300。我們使用嵌入層上的缺失來校準(zhǔn)我們的網(wǎng)絡(luò),并且丟棄率是0.5。編碼層的lstm單位數(shù)為300,解碼層數(shù)為600。與表1的結(jié)果對應(yīng)的偏置參數(shù)α為10。

4.1.4 基準(zhǔn)線

我們將我們的方法與幾種傳統(tǒng)的三元組提取方法進(jìn)行比較,可以分為以下幾類:串聯(lián)式方法,聯(lián)合提取方法和基于我們的標(biāo)記方案的端到端方法。
對于串聯(lián)式方法,我們遵循Ren等人2017年的設(shè)置:NER結(jié)果由CoType獲得,然后應(yīng)用幾種經(jīng)典關(guān)系分類方法來檢測關(guān)系。這些方法是:(1)DS-邏輯回歸是一種遠(yuǎn)程監(jiān)督和基于特征的方法,其結(jié)合了監(jiān)督IE和無監(jiān)督IE特征的優(yōu)點(diǎn); (2)LINE是一種網(wǎng)絡(luò)嵌入方式,適用于任意類型的信息網(wǎng)絡(luò); (3)FCM是一種組合模型,它將詞匯化語言語境和詞匯嵌入結(jié)合起來進(jìn)行關(guān)聯(lián)抽取。
本文使用的聯(lián)合提取方法如下:(4)DS-Joint是一種監(jiān)督方法,它使用結(jié)構(gòu)感知機(jī)在人工標(biāo)注的數(shù)據(jù)集合上提取實(shí)體和關(guān)系; (5)MultiR是基于多實(shí)例學(xué)習(xí)算法的典型的遠(yuǎn)程監(jiān)督方法,用于對抗有噪點(diǎn)的訓(xùn)練數(shù)據(jù); (6)Co-Type是一個獨(dú)立領(lǐng)域的框架,它將實(shí)體,關(guān)系,文本特征和類型標(biāo)簽共同嵌入到有意義的表示中。
此外,我們也比較了我們的方法和兩種傳統(tǒng)的end-to-end標(biāo)注模型方法:LSTM-CRF和LSTM-LSTM。LSTM-CRF用于實(shí)體識別,它是通過使用雙向L-STM編碼輸入句和條件隨機(jī)字段來預(yù)測實(shí)體標(biāo)簽序列。 與LSTM-CRF不同,LSTM-LSTM使用LSTM層解碼標(biāo)簽序列而不是CRF。這兩種方法是首次用基于我們的標(biāo)簽方案的聯(lián)合提取實(shí)體和關(guān)系的方法。

4.2 實(shí)驗(yàn)結(jié)果

從表1可以看出,我們的LSTM-LSTM-Bias方法在F1值的表現(xiàn)上優(yōu)于所有其它方法,并且比最好方法CoType有3%的提高。這顯示了我們提出的方法的有效性。 此外,從表1可以看出,聯(lián)合提取方法優(yōu)于串聯(lián)式方法,標(biāo)注方法比大多數(shù)聯(lián)合提取方法更好。這也驗(yàn)證了我們的標(biāo)注模式對共同提取實(shí)體和關(guān)系的任務(wù)的有效性。
與傳統(tǒng)方法相比,端對端模型的精度有顯著提高。但只有LSTM-LSTM-Bias才能更好地平衡精度和召回。原因可能是這些端對端模型都使用Bi-LSTM編碼輸入句和不同的神經(jīng)網(wǎng)絡(luò)來解碼結(jié)果。基于神經(jīng)網(wǎng)絡(luò)的方法可以很好地適應(yīng)數(shù)據(jù)。 因此,他們可以很好地學(xué)習(xí)訓(xùn)練集的共同特征,并可能導(dǎo)致較低的可擴(kuò)展性。我們也發(fā)現(xiàn)LSTM-LSTM模型要優(yōu)于LSTM-CRF模型。因?yàn)長STM能夠?qū)W習(xí)長期的依賴關(guān)系,CRF很好地捕捉整個標(biāo)簽序列的聯(lián)合概率。 相關(guān)標(biāo)簽可能彼此間距很遠(yuǎn)。 因此,LSTM的解碼方式要好于CRF。 LSTM-LSTM-Bias增加了偏差權(quán)重以增強(qiáng)實(shí)體標(biāo)簽的影響,并削弱無效標(biāo)簽的影響。 因此,在這種標(biāo)注方案中,我們的方法可以比普通的LSTM解碼方法更好。

5 分析和討論

5.1 錯誤分析

表2

在本文中,我們著重于提取由兩個實(shí)體和一個關(guān)系組成的三元組。 表1顯示了預(yù)測結(jié)果,只有當(dāng)兩個對應(yīng)的實(shí)體的關(guān)系類型和頭部偏移都是正確的時,找到的三元組才是是正確的。為了找出影響端對端模型結(jié)果的因素,我們分析了預(yù)測三元組中每個元素的性能,如表2所示。E1和E2分別代表每個實(shí)體的預(yù)測性能。如果第一個實(shí)體的頭部偏移正確,則E1的實(shí)例是正確的,E2也是如此。無論關(guān)系類型如何,如果兩個對應(yīng)的實(shí)體的頭部偏移都是正確的,則(E1,E2)的實(shí)例是正確的。
如表2所示,與E1和E2相比,(E1,E2)的精度更高。但其召回率比E1和E2低。這意味著一些預(yù)測實(shí)體不會形成一對。他們只得到E1,找不到對應(yīng)的E2,或獲得E2,找不到對應(yīng)的E1。因此,它導(dǎo)致對更多單個E和更少(E1,E2)對的預(yù)測。 因此,實(shí)體對(E1,E2)具有比單個E更高的精度和更低的召回率。此外,與表1中的預(yù)測結(jié)果相比,表2中的(E1,E2)的預(yù)測結(jié)果具有約3%的改善,這意味著3%的測試數(shù)據(jù)預(yù)測結(jié)果是錯誤的,因?yàn)轭A(yù)測關(guān)系類型是錯誤的。

5.2 偏置損失分析

圖4

與LSTM-CRF和LSTM-LSTM不同,我們的方法偏向于關(guān)系標(biāo)簽,以增強(qiáng)實(shí)體之間的鏈接。 為了進(jìn)一步分析偏置目標(biāo)函數(shù)的影響,我們可以從圖4中看出每個端對端方法預(yù)測單個實(shí)體的比例。單個實(shí)體是指找不到相應(yīng)實(shí)體的實(shí)體。無論圖4顯示的是E1還是E2,我們的方法都可以在單個實(shí)體上獲得相對較低的比例。這意味著當(dāng)比較LSTM-CRF和LSTM-LSTM時,我們的方法可以有效地關(guān)聯(lián)兩個實(shí)體,而不關(guān)心關(guān)系標(biāo)簽。
此外,我們調(diào)整偏置參數(shù)α從1到20,相應(yīng)的預(yù)測結(jié)果如圖5所示。如果α太大,會影響預(yù)測的準(zhǔn)確性,如果α太小,則召回率將下降。 當(dāng)α= 10時,LSTM-LSTM-Bias可以平衡準(zhǔn)確率和召回率,獲得最佳的F1值。


圖5

5.3 案例分析

在本節(jié)中,我們觀察了端到端方法的預(yù)測結(jié)果,然后選擇幾個代表性的例子來說明方法的優(yōu)缺點(diǎn),如表3所示。每個示例包含三行,第一行是黃金標(biāo)準(zhǔn),第二行和第三行分別是LSTM-LSTM和LSTM-LSTM-Bias模型的提取結(jié)果。
S1表示兩個相互關(guān)聯(lián)的實(shí)體之間的距離越彼此遠(yuǎn)離,就越難以發(fā)現(xiàn)其關(guān)系。與LSTM-LSTM相比,LSTM-LSTM-Bias使用偏差目標(biāo)函數(shù),增強(qiáng)實(shí)體之間的相關(guān)性。 因此,在這個例子中,LSTM-LSTM-Bias可以提取兩個相關(guān)實(shí)體,而LSTM-LSTM只能提取一個“Florida”實(shí)體,不能檢測到“Panama City Beach”。
S2是一個負(fù)面例子,顯示這些方法可能會錯誤地預(yù)測一個實(shí)體。 Nuremberg和Germany之間沒有任何指示性的詞匯。 此外,Germany和MiddleAges之間的“a * of *”這種模式可能容易錯誤的導(dǎo)致模型認(rèn)為它們之間存在“包含”關(guān)系。可以通過將這種表達(dá)模式的一些樣本添加到訓(xùn)練集中來解決該問題。
S3是一個模型可以預(yù)測實(shí)體的頭部偏移量,但是關(guān)系角色是錯誤的例子。 LSTM-LSTM將“Stephen A. Schwarzman”和“Blackstone Group”視為實(shí)體E1,找不到相應(yīng)的E2。 雖然LSTM-LSMT-Bias可以找到實(shí)體對(E1,E2),但它顛倒了“Stephen A. Schwarzman”和“Blackstone Group”的角色。 這表明LSTM-LSTM-Bias能夠更好地預(yù)測實(shí)體對,但在區(qū)分兩個實(shí)體之間的關(guān)系方面仍有待改進(jìn)。

6 結(jié)論

在本文中,我們提出了一種新穎的標(biāo)注方案,并研究了端對端模型共同提取實(shí)體和關(guān)系。實(shí)驗(yàn)結(jié)果表明我們提出的方法的有效性。但是,重疊關(guān)系的識別仍然存在缺陷。 在未來的工作中,我們將使用多個分類器替換輸出層中的softmax函數(shù),以便一個單詞可以有多個標(biāo)簽。 這樣一來,一個字可以出現(xiàn)在多個三元組結(jié)果中,這可以解決重疊關(guān)系的問題。雖然,我們的模型可以增強(qiáng)實(shí)體標(biāo)簽的效果,但兩個相應(yīng)實(shí)體之間的關(guān)聯(lián)仍然需要在下一個工作中進(jìn)行細(xì)化。

致謝

感謝Xiang Ren的數(shù)據(jù)集細(xì)節(jié)和有益的討論。 該工作也得到了中國國家高技術(shù)研究發(fā)展計劃(863計劃)(授權(quán)號:2015AA015402),國家自然科學(xué)基金(61602479)和國家自然科學(xué)基金項(xiàng)目(61501463)的支持。

參考文獻(xiàn)

Michele Banko, Michael J Cafarella, Stephen Soder- land, Matthew Broadhead, and Oren Etzioni. 2007. Open information extraction from the web. In IJ- CAI. volume 7, pages 2670–2676.
Jason PC Chiu and Eric Nichols. 2015. Named enti- ty recognition with bidirectional lstm-cnns. In Pro- cessings of Transactions of the Association for Com- putational Linguistics.
C?cero Nogueira et al. dos Santos. 2015. Classifying relations by ranking with convolutional neural net- works. In Proceedings of the 53th ACL internation- al conference. volume 1, pages 626–634. Matthew R Gormley, Mo Yu, and Mark Dredze. 2015. Improved relation extraction with feature-rich com- positional embedding models. In Proceedings of the EMNLP. Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9(8):1735–1780.
Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel S Weld. 2011. Knowledge- based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computation- al Linguistics. Association for Computational Lin- guistics, pages 541–550.
Zhiheng Huang, Wei Xu, and Kai Yu. 2015. Bidirec- tional lstm-crf models for sequence tagging. arXiv preprint arXiv:1508.01991 .
Nal Kalchbrenner and Phil Blunsom. 2013. Recurren- t continuous translation models. In EMNLP. vol- ume 3, page 413.
Nanda Kambhatla. 2004. Combining lexical, syntactic, and semantic features with maximum entropy mod- els for extracting relations. In Proceedings of the 43th ACL international conference. page 22. Arzoo Katiyar and Claire Cardie. 2016. Investigating lstms for joint extraction of opinion entities and rela- tions. In Proceedings of the 54th ACL international conference.
John Lafferty, Andrew McCallum, Fernando Pereira, et al. 2001. Conditional random fields: Probabilis- tic models for segmenting and labeling sequence da- ta. In Proceedings of the eighteenth international conference on machine learning, ICML. volume 1, pages 282–289.
Guillaume Lample, Miguel Ballesteros, Sandeep Sub- ramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural architectures for named entity recognition. In Proceedings of the NAACL international confer- ence.
Qi Li and Heng Ji. 2014. Incremental joint extraction of entity mentions and relations. In Proceedings of the 52rd Annual Meeting of the Association for Computational Linguistics. pages 402–412. Gang Luo, Xiaojiang Huang, Chin-Yew Lin, and Za- iqing Nie. 2015. Joint entity recognition and disam- biguation. In Conference on Empirical Methods in Natural Language Processing. pages 879–888.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Cor- rado, and Jeff Dean. 2013. Distributed representa- tions of words and phrases and their compositional- ity. In Advances in neural information processing systems. pages 3111–3119.
Mike Mintz, Steven Bills, Rion Snow, and Dan Ju- rafsky. 2009. Distant supervision for relation ex- traction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL. Association for Computational Linguistics, pages 1003–1011.
Makoto Miwa and Mohit Bansal. 2016. End-to-end re- lation extraction using lstms on sequences and tree structures. In Proceedings of the 54rd Annual Meet- ing of the Association for Computational Linguistic- s.
Makoto Miwa and Yutaka Sasaki. 2014. Modeling joint entity and relation extraction with table repre- sentation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Process- ing. pages 1858–1869.
David Nadeau and Satoshi Sekine. 2007. A sur- vey of named entity recognition and classification. Lingvisticae Investigationes 30(1):3–26.
Alexandre Passos, Vineet Kumar, and Andrew McCal- lum. 2014. Lexicon infused phrase embeddings for named entity resolution. In International Confer- ence on Computational Linguistics. pages 78–86.
Xiang Ren, Zeqiu Wu, Wenqi He, Meng Qu, Clare R Voss, Heng Ji, Tarek F Abdelzaher, and Jiawei Han. 2017. Cotype: Joint extraction of typed entities and relations with knowledge bases. In Proceedings of the 26th WWW international conference.
Bryan et al. Rink. 2010. Utd: Classifying semantic re- lations by combining lexical and semantic resources. In Proceedings of the 5th International Workshop on Semantic Evaluation. pages 256–259. Sameer Singh, Sebastian Riedel, Brian Martin, Jiaping Zheng, and Andrew McCallum. 2013. Joint infer- ence of entities, relations, and coreference. In Pro- ceedings of the 2013 workshop on Automated knowl- edge base construction. ACM, pages 1–6.
Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to sequence learning with neural network- s. In Advances in neural information processing sys- tems. pages 3104–3112.
Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. 2015. Line: Large-scale in- formation network embedding. In Proceedings of the 24th International Conference on World Wide Web. ACM, pages 1067–1077.
Tijmen Tieleman and Geoffrey Hinton. 2012. Lecture 6.5-rmsprop. In COURSERA: Neural networks for machine learning.
Ashish Vaswani, Yonatan Bisk, Kenji Sagae, and Ryan Musa. 2016. Supertagging with lstms. In Proceed- ings of the NAACL international conference. pages 232–237.
Kun et al. Xu. 2015a. Semantic relation classification via convolutional neural networks with simple neg- ative sampling. In Proceedings of the EMNLP.
Yan et al. Xu. 2015b. Classifying relations via long short term memory networks along shortest depen- dency paths. In Proceedings of EMNLP internation- al conference.
Bishan Yang and Claire Cardie. 2013. Joint inference for fine-grained opinion extraction. In Proceedings of the 51rd Annual Meeting of the Association for Computational Linguistics. pages 1640–1649.
Xiaofeng Yu and Wai Lam. 2010. Jointly identifying entities and extracting relations in encyclopedia tex- t via a graphical model approach. In Proceedings of the 21th COLING international conference. pages 1399–1407.
Daojian et al. Zeng. 2014. Relation classification via convolutional deep neural network. In Proceedings of the 25th COLING international conference. pages 2335–2344.
Feifei Zhai, Saloni Potdar, Bing Xiang, and Bowen Zhou. 2017. Neural models for sequence chunk- ing. In Proceedings of the AAAI international con- ference.
Suncong Zheng, Jiaming Xu, Peng Zhou, Hongyun Bao, Zhenyu Qi, and Bo Xu. 2016. A neural net- work framework for relation extraction: Learning entity semantic and relation pattern. Knowledge- Based Systems 114:12–23.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,321評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,559評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,442評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,835評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,581評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,922評論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,931評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,096評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,639評論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,374評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,591評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,104評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,789評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,196評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,524評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,322評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,554評論 2 379

推薦閱讀更多精彩內(nèi)容