用知識圖譜輔助NER問題

NER全稱Named-entity recognition(命名實體識別),是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。

知識圖譜中包含了許多實體的知識信息,能夠輔助NER問題。與常規NER不同的是,使用知識圖譜除了給出實體類型之外,還能夠精確地鏈接到知識圖譜的實體id上,是一個Entity Linking(實體鏈指)問題。

使用知識圖譜進行NER可以分為兩個步驟:1,選取候選實體集;2,鏈指到具體某個實體

1,選取候選實體集:這個步驟比較簡單,可以將知識圖譜所有數據建立一個從實體名稱-->實體id的倒排表,通過查詢到倒排表就能夠完成選取候選實體集功能。這里可以解決別名&簡寫問題,例如奧尼爾=大鯊魚,詹姆斯=小皇帝,將這種已知的別名信息也加入到倒排表中做為索引鍵。

2,鏈指到某個具體實體:通過第一步,在文本的每個實體會鏈接到1個或多個實體上,需要選擇其中一個最合適的。之所以可能被鏈接到多個實體,是因為實體名稱本身就存在歧義性。例如李娜可以是一個運動員,也是一個歌手;李白既是一個詩人,也是一首歌。

可以利用知識圖譜中的以下信息來進行實體消歧:

a)實體熱度:熱度分表示一個實體被大家所了解的程度,進行消歧時優先選擇高熱度分的實體。熱度分可以通過多種方式構建,例如在文本中出現的次數,百度百科中被瀏覽數,音樂/電影類實體的評論數等等。

b)實體上下文:將每個實體的上下文詞做為語義向量,比如蘋果(公司)的上下文詞是ipad,iphone,股價等,蘋果(水果)的上下文詞是好吃,顏色等,在做實體消歧的時候根據文本上下文進行判斷。

c)實體距離:知識圖譜中的實體通過關系(邊)進行連接,一般來說距離越近的實體點,其共現概率越大。如果已經判斷出來文本中某個實體,可以計算其他候選實體與其距離。

后續對于NER這塊內容可能還會深入了解,到時候再進行補充更新。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,595評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,814評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,224評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,444評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,988評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,804評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,998評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,237評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,706評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,993評論 2 374

推薦閱讀更多精彩內容

  • 本體、知識庫、知識圖譜、知識圖譜識別之間的關系? 本體:領域術語集合。 知識庫:知識集合。 知識圖譜:圖狀具有關聯...
    方弟閱讀 28,529評論 6 49
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識圖譜構建技術綜述[J]. 計算機研究與發展,2016...
    我偏笑_NSNirvana閱讀 52,639評論 6 125
  • 作者:劉知遠(清華大學);整理:林穎(RPI) 本文來自Big Data Intelligence知識就是力量。—...
    墨白找閱讀 11,595評論 4 54
  • 知識圖譜(Knowledge Graph)是當前學術界和企業界的研究熱點。中文知識圖譜的構建對中文信息處理和中文信...
    茍雨閱讀 7,423評論 0 11
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統所可能涉及到的多個領域的經典模型和基礎知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,976評論 2 64