知識(shí)圖譜(一):知識(shí)提取(Information Extraction)

資料來源: Knowledge Graph tutorial (AAAI 2017-part 2)

相關(guān)鏈接:https://kgtutorial.github.io/slides/Part2b_IE.pdf


問題背景

知識(shí)抽取(Information Extraction)主要是在完成一系列分詞、詞性標(biāo)注等NLP任務(wù)等的基礎(chǔ)上,從打上詞性標(biāo)簽的句子中提取信息。現(xiàn)有的提取系統(tǒng)主要有:OpenIE,ConceptNet,NELL,KnowledgeVault。

知識(shí)圖譜中信息一般以三元組的方式進(jìn)行組織,一般來說有(實(shí)體,關(guān)系,實(shí)體)和(實(shí)體,屬性,屬性值)兩種形式。在信息提取的過程主要包含如下三個(gè)任務(wù):

1. 如何確定領(lǐng)域知識(shí)(Define domain)?

2.如何提取三元組(Information extraction)?

3.如何評(píng)估提取出的三元組的可靠性(Scoring the candidate facts)?

針對(duì)每一個(gè)任務(wù),當(dāng)前均有三種解決方式:1. 監(jiān)督(純手工),2.半監(jiān)督(人機(jī)交互),3.無監(jiān)督(機(jī)器學(xué)習(xí))。以下將簡(jiǎn)略介紹針對(duì)每一個(gè)任務(wù)的三種解決方式。

任務(wù)1: ?領(lǐng)域知識(shí)的確定

之所以要確定領(lǐng)域知識(shí),一方面是為了在信息提取任務(wù)中可以有效避免語(yǔ)義漂流(semantic drift),一方面是為了在后期的評(píng)估任務(wù)中可以過濾掉悖于領(lǐng)域知識(shí)的三元組。

case1: ?監(jiān)督。需要領(lǐng)域?qū)<抑R(shí)來構(gòu)造高層語(yǔ)義網(wǎng)絡(luò),精度高但代價(jià)昂貴。

case2: ?半監(jiān)督。人工列出所需構(gòu)建的實(shí)體,和實(shí)體之間的層次關(guān)系。利用機(jī)器學(xué)習(xí)的方式從語(yǔ)料庫(kù)中學(xué)習(xí)實(shí)體之間的關(guān)系。

case3: ?無監(jiān)督。將句子中的任何動(dòng)詞作為關(guān)系,任何名詞作為實(shí)體。精度低,容易引入噪聲。

任務(wù)2:三元組的提取

case1:? 無監(jiān)督。需要領(lǐng)域?qū)<抑R(shí)手工編寫規(guī)則/模式,例如用“A work for B”來描述雇傭關(guān)系,然后將這樣的規(guī)則/模式應(yīng)用入句子,來挖掘出具體的三元組。

case2: ?半監(jiān)督。人工給出種子實(shí)例(Seed instances),例如”(John,HuaWei),(Alice,Apple)“。然后交給機(jī)器,學(xué)習(xí)出這類種子實(shí)例中所包含的模式 (Pattern) ——“A work for B”,接著利用該模式挖掘新的符合該模式的實(shí)例,再將這些新的實(shí)例加入種子實(shí)例中。所以,上述過程是一個(gè)bootstrap的過程。

在這個(gè)過程中,還可以引入人工互動(dòng)。例如對(duì)機(jī)器學(xué)習(xí)到的模式,可以進(jìn)行人工的篩選。對(duì)新學(xué)習(xí)到的三元組實(shí)例可以標(biāo)注正負(fù)例。

case3: ?無監(jiān)督。將句子中符合一定語(yǔ)法規(guī)則的動(dòng)詞作為關(guān)系,將該動(dòng)詞左右的名詞作為實(shí)體。

任務(wù)三:可靠性評(píng)估

case1:? 無監(jiān)督。人工設(shè)計(jì)評(píng)估函數(shù)。或從大規(guī)模打好標(biāo)簽數(shù)據(jù)中學(xué)習(xí)到特定的評(píng)估函數(shù)。耗時(shí)長(zhǎng),精度高。

case2: ?半監(jiān)督。迭代的方法。打標(biāo)簽的數(shù)據(jù)和未打標(biāo)簽的數(shù)據(jù)共存,不斷迭代,refain。

case3: ?無監(jiān)督。一個(gè)模式的得分正比于抽取出該模式所使用到的實(shí)例的個(gè)數(shù)。一個(gè)三元組的得分正比于抽取出該三元組所使用到的模式個(gè)數(shù)。



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 本體、知識(shí)庫(kù)、知識(shí)圖譜、知識(shí)圖譜識(shí)別之間的關(guān)系? 本體:領(lǐng)域術(shù)語(yǔ)集合。 知識(shí)庫(kù):知識(shí)集合。 知識(shí)圖譜:圖狀具有關(guān)聯(lián)...
    方弟閱讀 28,704評(píng)論 6 49
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2016...
    我偏笑_NSNirvana閱讀 52,744評(píng)論 6 125
  • 作者:劉知遠(yuǎn)(清華大學(xué));整理:林穎(RPI) 本文來自Big Data Intelligence知識(shí)就是力量。—...
    墨白找閱讀 11,646評(píng)論 4 54
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,991評(píng)論 19 139
  • 我真的那么喜歡她嗎? 說起來很慚愧,我喜歡她到現(xiàn)在僅僅4年。 第一次相遇是在初入高中時(shí),留著短發(fā)的他在女生堆里很顯...
    名佚被人搶了閱讀 344評(píng)論 2 0