作者:劉嶠, 李楊 等
單位:電子科技大學
年份:2014
“知識圖譜的概念是由谷歌公司提出的,2012年5月17日,谷歌發布知識圖譜項目,并宣布以此為基礎構建下一代智能化搜索引擎。該項目始于2010年谷歌收購Metaweb公司,并借此獲得了該公司的語義搜索核心技術,其中的關鍵技術包括從互聯網的網頁中抽取出實體及其屬性信息,以及實體間的智能問答問題,由此創作出一種全新的信息檢索模式。”
“知識圖譜:是結構化的語義知識庫,用于以符號的形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯結,構成網狀的知識結構。”
"從邏輯上將知識圖譜劃分為2個層次:數據層和模式層。"
“知識圖譜有自頂向下和自底向上2種構建方式。”
自底向上的構建方式包括3個步驟:1 信息抽取, 2 知識融合, 3 知識加工。
信息抽取主要包括:1 實體抽取(NER),2 關系抽取, 3 屬性抽取。
“當前流行的OpenIE系統在關系抽取方面存在2個主要問題:1 當前研究的重點是如何提高二元實體關系(三元組模式)的抽取準確率和召回率,很少考慮到在現實生活中普遍存在的高階多元實體關系;2 所采用的研究方法大多只是關注發掘詞匯或者詞組之間的關系模式,而無法實現對隱含語義關系的抽取。
“知識融合包括2部分內容:實體鏈接和知識合并。通過知識融合,可以消除概念的歧義,剔除冗余和錯誤的概念,從而確保知識的質量。/ 實體鏈接是指對于文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。”
"根據W3C的調查報告,當前已經出現了大量RDB2RDF的開源工具:如 Triplify, D2R Server, OpenLink , Virtuoso, SparqlMap 等。然而由于缺少標準規范,使得這些工具的推廣應用受到極大的制約。為此,W3C于2012年推出了2中映射語言標準:Direct Mapping(A direct mapping of relational data to RDF) 和 R2RMl (RDB to RDF mapping language)."
"除了關系型數據庫之外,還有許多以半結構化方式存儲(如 XML,CSV,JSON等格式)的歷史數據也是高質量的知識來源,同樣采用RDF數據模型將其合并到知識圖譜當中。當前已經有許多這樣的工具軟件,例如XSPARQL支持從XML格式轉化為RDF,Datalift支持從XML和CSV格式轉化為RDF。"
“數據驅動的自動化本體構建過程包含3個階段:實體并列關系相似度計算,實體上下位關系抽取以及本體的生成”
跨語言知識圖譜的構建。
“互聯網正從包含網頁和網頁之間的超鏈接文檔萬維網轉變成包含大量描述各種實體和實體之間豐富關系的數據萬維網。知識圖譜作為下一代智能搜索的核心關鍵技術,具有重要的理論研究價值和現實的實際應用價值。”