NER全稱Named-entity recognition(命名實體識別),是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
知識圖譜中包含了許多實體的知識信息,能夠輔助NER問題。與常規NER不同的是,使用知識圖譜除了給出實體類型之外,還能夠精確地鏈接到知識圖譜的實體id上,是一個Entity Linking(實體鏈指)問題。
使用知識圖譜進行NER可以分為兩個步驟:1,選取候選實體集;2,鏈指到具體某個實體
1,選取候選實體集:這個步驟比較簡單,可以將知識圖譜所有數據建立一個從實體名稱-->實體id的倒排表,通過查詢到倒排表就能夠完成選取候選實體集功能。這里可以解決別名&簡寫問題,例如奧尼爾=大鯊魚,詹姆斯=小皇帝,將這種已知的別名信息也加入到倒排表中做為索引鍵。
2,鏈指到某個具體實體:通過第一步,在文本的每個實體會鏈接到1個或多個實體上,需要選擇其中一個最合適的。之所以可能被鏈接到多個實體,是因為實體名稱本身就存在歧義性。例如李娜可以是一個運動員,也是一個歌手;李白既是一個詩人,也是一首歌。
可以利用知識圖譜中的以下信息來進行實體消歧:
a)實體熱度:熱度分表示一個實體被大家所了解的程度,進行消歧時優先選擇高熱度分的實體。熱度分可以通過多種方式構建,例如在文本中出現的次數,百度百科中被瀏覽數,音樂/電影類實體的評論數等等。
b)實體上下文:將每個實體的上下文詞做為語義向量,比如蘋果(公司)的上下文詞是ipad,iphone,股價等,蘋果(水果)的上下文詞是好吃,顏色等,在做實體消歧的時候根據文本上下文進行判斷。
c)實體距離:知識圖譜中的實體通過關系(邊)進行連接,一般來說距離越近的實體點,其共現概率越大。如果已經判斷出來文本中某個實體,可以計算其他候選實體與其距離。
后續對于NER這塊內容可能還會深入了解,到時候再進行補充更新。