節點表示實體,連邊表示實體和實體之間的關系。
實體包括:概念、實例
構建領域知識圖譜的 四步法 :
1)領域本體構建
2)眾包半自動語義標注
3)外源數據補全
4)信息抽取
領域本體構建
本體:一種概念化的精確的規格說明;共享概念模型的明確形式化規范說明
構建方法
1)人工(領域專家)構建本體
案例:WordNet
方法:骨架法、TOVE法、SENSUS法、Methontology法、Ontology Development 101法
2)自動構建本體、本體學習
利用知識獲取技術、機器學習技術及統計技術從數據資源中自動地獲取本體知識
方法:OpenIE
本體學習對象的層次:概念、關系、公理
現狀:極少有方法能夠得到覆蓋率和準確率都表現良好的本體
3)半自動構建本體
構建流程
本體構建的基本原則
也即本體中類的設計的獨立性和共享性原則。
獨立性原則:類可以獨立存在,不依賴于特定的領域。
共享性原則:類可以是共享的,有被復用的可能和必要。
最小化原則:本體中包含的類的數據應盡可能最小化,去除冗余的類。
歸納領域概念
領域的核心概念是領域術語的子集,對應本體中的類(owl:Class),每個核心概念都有許多對應實例。
構建方法:
1)統計法
基本假設:
·?領域的核心概念是領域術語的子集,可通過獲取領域術語來獲取領域概念。
· 重要術語在領域相關文檔中出現的頻率相對較高,術語在領域相關文檔中出現的頻率遠高于在普通中出現的頻率;
算法:
· TF-IDF:用于評估一個詞語對于一個語料庫的其中一份文檔的重要程度。核心思想是,一個詞語的重要性隨著它在文檔中出現的次數成正比地增加,但同時隨著它在語料庫中出現的頻率成反比地下降。缺陷是沒有對有聯系的詞語進行綜合考慮。
· TextRank:核心思想與PageRank算法相同,在詞語網絡中詞語的重要程度取決于與它連接的詞語給它的投票數,且票的權重取決于該詞語自己的票數。
2)參考高質量的知識圖譜或數據源
Schema.org:包含語義信息的被各大搜索引擎所支持的html標簽的詞匯表。
DBpedia:大規模通用知識圖譜
Geonames:每個地名都對應featurecode信息
3)眾包半自動語義標注
依據本體構建的基本原則進行修正
定義領域關系及其約束
關系:對領域中的概念、實例之間的相互作用的描述。
關系的重要作用:是本體的核心基本要素;直接決定了知識豐富層級以及基于應用范圍。
定義關系的方法
1)OpenIE法:先進行無監督的批量抽取,再進行過濾。
2)參考質量較高的通用知識圖譜或數據源:參考其領域概念相關的關系列表及標簽
3)根據核心概念和百科信息框來確定關系:通過整合同一概念下多個實例在百科
4)眾包半自動補充關系
本體檢查
領域專家參與,對本體進行檢查評估。
評估內容:核心概念是否合理;每個概念的合理性、必要性,相似概念間的辨析。
語義標注
語義標注:對原始數據做標記,使其包含一定的語義信息,使人和機器都能理解。
存儲方式:嵌入式存儲、獨立存儲
標注格式:JSON-LD、MicroData、RDFa
標注工具:Google結構化數據標記輔助工具、開源語義標注工具Pundit
語義標注的種類
類型標注:將文檔中與本體中概念相對應的詞語標記出來,并將詞語作為概念所對應的實例。
關系標注:找出實例之間存在的與本體中關系相對應的關系,豐富實例的內在信息,通常將實例與實例間的關系表示為三元組。
對語義標注系統的需求
1、標注依據:必須能夠導入本體描述文件,提供基于本體的語義標注功能。
2、標注對象:支持對文本文件、靜態網頁、圖片等文件的標注
3、標注方式:提供類型標注、關系標注
4、本體語言:支持主流的本體語言,如RDF(S)、OWL、XML、DAML+OIL
5、協同式標注:支持大量人員同時在線標注
6、標注審核:支持用戶權限組及控制控制,包括標注人員、審核人員
7、標注溯源:能夠追溯到標注來源的元數據信息。通常采用XPointer計算,根據數據在XML文件中的位置、字符內容、屬性值等特性進行定位。
8)標注數據存儲:可采用Sesame數據庫,進行標注數據存儲。
9)共指消解:遇到相同的實例時,選擇已存在的實例進行標注,從而避免重新生成新的實例造成的實例共指問題。
標注方式
手工標注
定義:標注人員之間將語義數據寫入到標注文檔中
案例、工具:Semantic Wiki、SHOW Knowledge、OntoMat Annotizer
半自動標注
定義:由標注人員制定網頁或網頁中的文本片段,然后由標注人員選擇合適的本體概念(或熟悉)或者由系統自動顯示可選的本體概念(或屬性),最后生成并保存語義標注結果。
案例、工具:
· W3C主導的Annotea,基于RDF的語義標注項目,實現了半自動語義標注工具Amaya,必須在客戶端軟件完成,不適合大規模網頁語義標注。
· SMORE
· Pundit:可以滿足眾包標注過程的標注審核、溯源、共指消解、數據存儲
自動標注
定義:標注工具可以按照預定的規則自動產生并保存語義標注信息。
案例、工具:
· AeroDAML:把常見的概念和關系映射到DAML+OIL本體中的類和屬性
自動標注的質量很難得到保證。
外源數據補全
定義:外部數據源按照領域本體結構處理后得到的與標注數據結構一致的RDF數據。
Geonames知識圖譜
百度百科信息框
中國行政區劃信息
國家統計局網站、民政部網站
信息抽取
擴充數據:指的是利用之前得到的標注數據和外源數據,運用機器學習等方法,從文本中抽取的RDF三元組數據。
文本語料:《中國大百科全書》、百度百科、維基百科
實體抽取
實體抽取:也稱命名實體抽取,是從文本中自動識別出命名實體
實體集擴充:根據種子實體集,從文本中抽取出相同類別的新實體。采用Bootstrapping方法,根據種子實體從文本中抽取出特征模板,然后利用這些模板從文本中抽取出新的實體,再根據新實體從文本中抽取新的特征模板,反復迭代此過程,但存在語義漂移問題。
方法:詞向量法+實體消歧
關系抽取
關系抽取:從文本中抽取出實體和實體之間的關系,將零散的實體聯系起來。
基于規則
基于機器學習
多分類問題,采用Bootstrapping、協同訓練、標注傳播等算法
· 無監督:基于規則的方法(正則模板)、LDA模型(識別文本中隱藏的關系類別信息,用詞袋表示每類關系的特征)
· 有監督:將已有的關系數據作為訓練數據,從文本中抽取相應的三元組。
· 半監督:基于多語言注意力機制的遠程監督方法
屬性抽取
屬性抽取:從文本中抽取出實體的屬性信息(實體和屬性間的一種名詞性關系,可視為關系抽取問題)
參考文獻
《一種準確而高效的領域知識圖譜構建方法》
領域(學科)知識圖譜構建心得???http://www.lxweimin.com/p/f66d7614fb49