領域知識圖譜構建方法

節點表示實體,連邊表示實體和實體之間的關系。

實體包括:概念、實例

構建領域知識圖譜的 四步法 :

1)領域本體構建

2)眾包半自動語義標注

3)外源數據補全

4)信息抽取

領域本體構建

本體:一種概念化的精確的規格說明;共享概念模型的明確形式化規范說明

構建方法

1)人工(領域專家)構建本體

案例:WordNet

方法:骨架法、TOVE法、SENSUS法、Methontology法、Ontology Development 101法

2)自動構建本體、本體學習

利用知識獲取技術、機器學習技術及統計技術從數據資源中自動地獲取本體知識

方法:OpenIE

本體學習對象的層次:概念、關系、公理

現狀:極少有方法能夠得到覆蓋率和準確率都表現良好的本體

3)半自動構建本體

構建流程

本體構建的基本原則

也即本體中類的設計的獨立性和共享性原則。

獨立性原則:類可以獨立存在,不依賴于特定的領域。

共享性原則:類可以是共享的,有被復用的可能和必要。

最小化原則:本體中包含的類的數據應盡可能最小化,去除冗余的類。

歸納領域概念

領域的核心概念是領域術語的子集,對應本體中的類(owl:Class),每個核心概念都有許多對應實例。

構建方法:

1)統計法

基本假設:

·?領域的核心概念是領域術語的子集,可通過獲取領域術語來獲取領域概念

· 重要術語在領域相關文檔中出現的頻率相對較高,術語在領域相關文檔中出現的頻率遠高于在普通中出現的頻率;

算法:

· TF-IDF:用于評估一個詞語對于一個語料庫的其中一份文檔的重要程度。核心思想是,一個詞語的重要性隨著它在文檔中出現的次數成正比地增加,但同時隨著它在語料庫中出現的頻率成反比地下降。缺陷是沒有對有聯系的詞語進行綜合考慮。

· TextRank:核心思想與PageRank算法相同,在詞語網絡中詞語的重要程度取決于與它連接的詞語給它的投票數,且票的權重取決于該詞語自己的票數。

2)參考高質量的知識圖譜或數據源

Schema.org:包含語義信息的被各大搜索引擎所支持的html標簽的詞匯表。

DBpedia:大規模通用知識圖譜

Geonames:每個地名都對應featurecode信息

3)眾包半自動語義標注

依據本體構建的基本原則進行修正

定義領域關系及其約束

關系:對領域中的概念、實例之間的相互作用的描述。

關系的重要作用:是本體的核心基本要素;直接決定了知識豐富層級以及基于應用范圍。

定義關系的方法

1)OpenIE法:先進行無監督的批量抽取,再進行過濾。

2)參考質量較高的通用知識圖譜或數據源:參考其領域概念相關的關系列表及標簽

3)根據核心概念和百科信息框來確定關系:通過整合同一概念下多個實例在百科

4)眾包半自動補充關系

本體檢查

領域專家參與,對本體進行檢查評估。

評估內容:核心概念是否合理;每個概念的合理性、必要性,相似概念間的辨析。

語義標注

語義標注:對原始數據做標記,使其包含一定的語義信息,使人和機器都能理解。

存儲方式:嵌入式存儲、獨立存儲

標注格式:JSON-LD、MicroData、RDFa

標注工具:Google結構化數據標記輔助工具、開源語義標注工具Pundit

語義標注的種類

類型標注:將文檔中與本體中概念相對應的詞語標記出來,并將詞語作為概念所對應的實例。

關系標注:找出實例之間存在的與本體中關系相對應的關系,豐富實例的內在信息,通常將實例與實例間的關系表示為三元組。

對語義標注系統的需求

1、標注依據:必須能夠導入本體描述文件,提供基于本體的語義標注功能。

2、標注對象:支持對文本文件、靜態網頁、圖片等文件的標注

3、標注方式:提供類型標注、關系標注

4、本體語言:支持主流的本體語言,如RDF(S)、OWL、XML、DAML+OIL

5、協同式標注:支持大量人員同時在線標注

6、標注審核:支持用戶權限組及控制控制,包括標注人員、審核人員

7、標注溯源:能夠追溯到標注來源的元數據信息。通常采用XPointer計算,根據數據在XML文件中的位置、字符內容、屬性值等特性進行定位。

8)標注數據存儲:可采用Sesame數據庫,進行標注數據存儲。

9)共指消解:遇到相同的實例時,選擇已存在的實例進行標注,從而避免重新生成新的實例造成的實例共指問題。

標注方式

手工標注

定義:標注人員之間將語義數據寫入到標注文檔中

案例、工具:Semantic Wiki、SHOW Knowledge、OntoMat Annotizer

半自動標注

定義:由標注人員制定網頁或網頁中的文本片段,然后由標注人員選擇合適的本體概念(或熟悉)或者由系統自動顯示可選的本體概念(或屬性),最后生成并保存語義標注結果。

案例、工具:

· W3C主導的Annotea,基于RDF的語義標注項目,實現了半自動語義標注工具Amaya,必須在客戶端軟件完成,不適合大規模網頁語義標注。

· SMORE

· Pundit:可以滿足眾包標注過程的標注審核、溯源、共指消解、數據存儲

自動標注

定義:標注工具可以按照預定的規則自動產生并保存語義標注信息。

案例、工具:

· AeroDAML:把常見的概念和關系映射到DAML+OIL本體中的類和屬性

自動標注的質量很難得到保證。

外源數據補全

定義:外部數據源按照領域本體結構處理后得到的與標注數據結構一致的RDF數據。

Geonames知識圖譜

百度百科信息框

中國行政區劃信息

國家統計局網站、民政部網站

信息抽取

擴充數據:指的是利用之前得到的標注數據和外源數據,運用機器學習等方法,從文本中抽取的RDF三元組數據。

文本語料:《中國大百科全書》、百度百科、維基百科

實體抽取

實體抽取:也稱命名實體抽取,是從文本中自動識別出命名實體

實體集擴充:根據種子實體集,從文本中抽取出相同類別的新實體。采用Bootstrapping方法,根據種子實體從文本中抽取出特征模板,然后利用這些模板從文本中抽取出新的實體,再根據新實體從文本中抽取新的特征模板,反復迭代此過程,但存在語義漂移問題。

方法:詞向量法+實體消歧

關系抽取

關系抽取:從文本中抽取出實體和實體之間的關系,將零散的實體聯系起來。

基于規則

基于機器學習

多分類問題,采用Bootstrapping、協同訓練、標注傳播等算法

· 無監督:基于規則的方法(正則模板)、LDA模型(識別文本中隱藏的關系類別信息,用詞袋表示每類關系的特征)

· 有監督:將已有的關系數據作為訓練數據,從文本中抽取相應的三元組。

· 半監督:基于多語言注意力機制的遠程監督方法

屬性抽取

屬性抽取:從文本中抽取出實體的屬性信息(實體和屬性間的一種名詞性關系,可視為關系抽取問題)


參考文獻

《一種準確而高效的領域知識圖譜構建方法》

領域(學科)知識圖譜構建心得???http://www.lxweimin.com/p/f66d7614fb49

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。