知識圖譜相關會議之觀后感分享與學習總結

2015年6月27日,清華大學FIT樓多功能報告廳,中國中文信息學會青年工委系列學術活動——知識圖譜研究青年學者研討會。

由于我畢設是與知識圖譜、實體消歧、實體對齊、知識集成相關的,所以去聽了這個報告;同時報告中采用手寫筆記,所以沒有相應的PPT和原圖(遺憾),很多圖是我自己畫的找的,可能存在遺漏或表述不清的地方,請海涵~很多算法還在學習研究中,最后希望文章對大家有所幫助吧!感謝那些分享的牛人,知識版權歸他們所有。

目錄:

一.面向知識圖譜的信息抽取技術

二.常識知識在結構化知識庫構建中的應用

三.淺談邏輯規(guī)則在知識圖譜表示學習中的應用

四.大規(guī)模知識圖譜表示學習

五.知識圖譜中推理技術及工具介紹

六.多語言知識圖譜中的知識鏈接

七.知識圖譜關鍵技術和在企業(yè)中的應用

PPT免費下載地址:http://download.csdn.net/detail/eastmount/9159689

一.面向知識圖譜的信息抽取技術——韓先培(中科院)

下圖是我自己根據(jù)講述內容筆記繪制的大綱:

傳統(tǒng)知識抽取主要是抽取是以實體、關系和事件為主的結構化信息抽取;隨著維基百科的出現(xiàn),導致了面向知識圖譜的信息抽取,主要的變化包括:抽取目標發(fā)生了變化,從ACE文本分析抽取到KBP海量數(shù)據(jù)發(fā)現(xiàn)集成,同時傳統(tǒng)的抽取是預指定類型到現(xiàn)在的基于開放域、變化數(shù)據(jù)的抽取。

韓先陪老師主要從以下四個部分分別進行了詳細的講解。

1.高價值信息檢測

以知識為核心的高價值信息包括:高價值結構和高價值文本。其中高價值結構例如Wikipedia的InfoBox(消息盒),Web Table等。再如高價值文本:

姚明身高2.29m

姚明爸爸身高2.08m,姚明比他爸高21cm

顯然第一段文字信息獲取價值更高,第二段文字還需要分析關系+身高相加。

2.知識鏈接link

對自然語言文本信息與知識庫中的條目進行鏈接,但不同數(shù)據(jù)源會存在冗余信息或歧義,詞義消歧的例子如下:

例如“蘋果”和“喬布斯”通過命名實體消歧確定為“蘋果(公司)”。實體鏈接可以利用上下文相似度、文本主題一致性實現(xiàn),主要有兩類方法:

1) 實體鏈接方法——統(tǒng)計方法

通過知識庫和大規(guī)模語料+深度學習模型實現(xiàn)。

2) 實體鏈接方法——圖方法

計算最大似然鏈接結果的算法

3.開放抽取

傳統(tǒng)的抽取方法:人工標注語料+機器學習算法,但成本高、性能低、需要預定義。

所以提出了按需抽取、開放抽取等內容。

1) 按需抽取

算法Bootstrapping,主要步驟包括:模板生成=》實例抽取=》迭代直至收斂,但會存在語義漂移線性。

2) 開放抽取

通過識別表達語義關系的短語來抽取實體之間的關系,工具ReVerb。如抽取“華為總部深圳”,它的優(yōu)點是無需預先指定,缺點是語義歸一化。

知識監(jiān)督開放抽取,基于噪音實例去除的DS方法。Open IE(知識抽取)

4.驗證集成

知識集成需要保證其準確性和可靠性,同時知識圖譜需要增加知識、更新知識,需要確保其一致性。

數(shù)據(jù)集成Google's Knowledge Vault,數(shù)據(jù)來源包括DOM、HTML表格、RDFa、文本等,方法最大熵模型融合數(shù)據(jù)/分類器。

例如我在做實體對齊時就會遇到這樣的知識集成。維基百科中Infobox屬性“總部位于、總部建于、總部設置于”都是映射統(tǒng)一概念“總部位置”,這就需要知識集成、實體屬性對齊,常用的方法包括:聚類相似度、短語相似度等。

總結:本文講述了從傳統(tǒng)IE(知識抽取)到面向知識圖譜IE,文本為核心到知識獲取為核心,封閉信息類別到基于開放的知識抽取,更關注Retall、precision等概念和例子。

二.常識知識在結構化知識庫構建中的應用——馮巖松

Common Sense Knowledge in Automatic Knowledge Base Population

下圖是我總結的一張圖,主要包含的一些知識,因為馮老師講的是英文PPT,很多東西我也不太懂或還在學習中,所以只能講述些簡單的知識,還請見諒。

這里使用的三元組是,舉例:維基百科中已經(jīng)存在了“姚明”的InfoBox半結構化數(shù)據(jù),同時對應有詳細的介紹;現(xiàn)在給你“郭艾倫”一篇的詳細信息,讓你通過類似的方法進行標注抽取屬性和值,并預測一個InfoBox信息框。

但同時在抽取信息過程中會存在噪聲,例如一句話包含“安倍”和“日本”,但未必能確定他的國籍;再如“喬布斯回蘋果了”這句話不能確定他是蘋果的CEO。

知識不應僅是,實際上知識是相互關聯(lián)的,通過關聯(lián)才能發(fā)揮它最大效應。

eg1:

Mao was born in China.

Mao was born in US.

eg2:

Mao was born in 1991.

Mao graduated from MIT in 1993.

很顯然,Mao不可能即出生在中國又出生在美國;Mao也不可能只用2年的時間讀完MIT所有課程。即使是一個小學生可能都知道這個道理。

但是你否定它是用你的常識,而不是技術。Knowledge beyond

解決方法是通過A tpye of Common Sense Knowledge(CSK)常識知識實現(xiàn),包括因果解釋、生活規(guī)律、知識推理等,把常識約束加入到模型之中去,通過實體Preference(偏好)、Constraint(約束)加入。

舉個簡單例子:

在知識問答中“Which is the biggest city in China?”,可以通過CSK定義最高級常識如longest映射到長度length,biggest映射城市面積最大。通過定義一些常識,其效果都有相應的提升。

三.淺談邏輯規(guī)則在知識圖譜表示學習中的應用——王泉

主要講述了邏輯規(guī)則+表示學習應用到知識圖譜中,主要內容如下:

由于數(shù)據(jù)驅動方法和精度有限(廣泛相關!=精確匹配),需要引入邏輯規(guī)則。其中知識圖譜表示學習主要的三個步驟如上圖所示,由于涉及到很多數(shù)學、算法方面知識,我也不是很理解。其中包括:RESCAL基于重構誤差的方法、基于排序損失的方法TransE、流水線式方法(馬爾科夫邏輯網(wǎng)絡、0-1整數(shù)線性規(guī)劃)、聯(lián)合式方法。

舉個例子:

問圣安東尼奧(NBA馬刺隊)位于美國哪個州State?

它給出的答案應該是排序序列,答案至少都是美國的州,但精確定位唯一答案比較難。其解決方法就可以加入文中講到的“邏輯規(guī)則+表示學習”實現(xiàn)。

四.大規(guī)模知識圖譜表示學習——劉知遠(清華大學自然語言處理)

一個著名的公式:機器學習=數(shù)據(jù)表示+學習目標+優(yōu)化方式

現(xiàn)在面臨的挑戰(zhàn)是缺乏統(tǒng)一的語義表示和分析手段,而表示學習的目的就是建立統(tǒng)一的語義表示空間。

知識圖譜包括實體和關系,節(jié)點表示實體,連邊表示關系,采用三元組來實現(xiàn)。大規(guī)模知識獲取從文本數(shù)據(jù)抽取關系發(fā)展到了從知識圖譜抽取關系,其挑戰(zhàn)是高維。

知識表示代表模型包括:Neural Tensor Network(NTN)、TransE(Translation-based Entity)。

其中研究趨勢主要包括以下幾個方面:

1.知識表示研究趨勢:一對多關系處理

例如:

美國總統(tǒng)是奧巴馬

美國總統(tǒng)是克林頓

美國總統(tǒng)到底是誰?TransE假設無法較好處理一對多、多對多的關系,其趨勢是不同類型的relation怎么表示學習?

2.知識表示研究趨勢:文本+KG融合TransE+Word2Vec就是文本方法和知識圖譜方法相融合,KG對應TransE方法,文本Text對應Word2Vec模型。基于CNN的關系抽取模型,建立對詞匯、實體、關系的統(tǒng)一表示空間。

3.知識表示研究確實:關系路徑表示

知識圖譜中存在復雜的推理關系,關系路徑算法(實體預測、關系預測)。RNN(Recurslve Neural Network)、PTransE(ADD,3-step)。

中間對四位老師的提問:

1.中文文本聚類

文本自動生成摘要信息,詞與詞之間關系、句子主干主謂賓提取、句子壓縮、獲取任務相關的鮮艷信息。

2.不同語言的知識圖譜

現(xiàn)趨勢文本+KG(知識圖譜)相結合,而對不同語言呢?知識不應該有語言的障礙,語言相當于只是添加了標簽label,關系是客觀存在的(唯一關系標識),如“情侶”、“戀人”只是表達不同。

3.淘寶商品種類多、更新快,海量數(shù)據(jù)類別大,需要知識圖譜嗎?

目前淘寶做得這么好,沒有必要。KG適合復雜推理關系,但產品屬性可以通過知識圖譜存儲。知識圖譜是基礎構建,抽取結構化、半結構化信息當成知識,應用于NLP、AI、問答系統(tǒng)、理解事件等。

五.知識圖譜中推理技術及工具介紹——漆佳林

An Introduction of Reasoning in Knowledge Graph and Reasoning Tools

本體規(guī)則推理,Ontology(本體)起源于哲學,表示形式化詞匯定義、抽象概念。數(shù)據(jù)異構性包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)的集成。

本體語義三個標準:

1.RDF:Resource Description Frameword

2.RDFs:Classes例如MusicArtist音樂家

3.OWL:Web Ontology Language,W3C標準,hierarchy分層

包括Domain和Range

如:“獨奏音樂家”屬于“音樂藝術家”屬于“藝術家”,具有傳遞性。

推理解決現(xiàn)實問題例如:

北京路發(fā)生追尾(BeijingRoad?ョoccur Rear-end) 、王軍在北京路...可以推理王軍堵車。

工具:

Dbpedia知識庫是基于Wikipedia,WebPIE工具-MapReduce(平臺Platform)-OWL(語言),Marvin-PeertoPeer(平臺)-RDF(語言),SAOR\GEL-基于圖數(shù)據(jù)庫的平臺-OWLEL(語言)。

再如推薦流行歌例子:

小明喜歡周杰倫歌手 ? ? ? ? ?小明是年輕人 ? ? ? ? ?難

周杰倫歌手唱流行歌 ? ?=》 ? ?小明是周杰倫粉絲 ? ? ? 正確

周杰倫唱《牛仔很忙》 ? ? ? ? 《牛仔很忙》是流行歌 ? ?正確

六.多語言知識圖譜中的知識鏈接——王志春

DBpedia知識圖譜是Wikipedia(維基百科)的DBpedia extraction framework

維基百科一個頁面如下所示,包括:Title、Description、InfoBox、Categories(實體類別)、Crosslingual Links(跨語言鏈接)。

例如“清華大學”中文、發(fā)文和英文EN的“清華大學”實體是指稱項一致的,通過實體鏈接實現(xiàn)不同語言鏈接。

規(guī)范化數(shù)據(jù)集:http://mappings.dbpedia.org/

http://dbpedia.org/

知識庫:

BabelNet知識庫、WordNet、機器翻譯工具Google Translation

Freebase and Wikidata,F(xiàn)reebase關閉了,變成了Wikidata知識庫。在Wikidata中傳統(tǒng)的Entity、Relation變成了item,不同語言標記不同,EN label、CN label、FR label標記。

YAGO3,Wikipedia+WordNet+GeoNames,添加了地理位置信息、時間信息、多源版本。

王志春老師們做了個把維基百科、百度百科、互動百科聯(lián)系在一起的中英文的LORE。我的畢設是基于三個百科和多源網(wǎng)站的旅游景點知識對齊融合技術,感觸頗深。

總體來說,DBpedia、BabelNet、WikiData、YAGO3都來源于Wikipedia。通過Cross-lingual Knowledge Linking鏈接發(fā)現(xiàn)中英文,主要通過相似性和鏈接關系實現(xiàn)。

七.知識圖譜關鍵技術和在企業(yè)中的應用——王昊奮

Publishing and Consuming Knowledge Graphs in Vertical Sectors

如何從數(shù)據(jù)中發(fā)現(xiàn)商業(yè)價值,主要看全面數(shù)據(jù)、可訪問的、可移植(Action)三方面。知識圖譜在企業(yè)中的應用簡單包括:

IBM的Watson通過分析病人癥狀,來實現(xiàn)自動診斷、分析病情、推薦藥物

自動診斷Automatic ICD Coding,通過EMR(電子病歷)建立相應的SG(圖譜)

在生物醫(yī)藥方面應用Open Phacts

Agriculture農業(yè)方面,各種形態(tài)的異構數(shù)據(jù),生物論文Pubmed

Amdocs電信方面CRM(客戶關系管理),如一位信用好的老客戶該月的電話費比平時增加了30塊,發(fā)現(xiàn)是自己的女兒下載了一個游戲業(yè)務,當該客戶打電話過去,電信公司就已經(jīng)取消了該游戲業(yè)務,這是怎么實現(xiàn)的呢?它就涉及到了相關的技術。

2012年倫敦奧運會新聞信息,很多都是自動生成的

Enterprise Knowledge Graph

由于會議要開到5點半,還有兩個主題:

Natural Language Question Answering Over Knowledge Graph: A Data-driven Approach

知識庫問答的問題與挑戰(zhàn)

但我北郵有個同學要畢業(yè)了,我就提前離開了參加聚餐去了。最后希望文章對你有所幫助吧!因為不同主講人講述的內容不同,它們之間存在著一定聯(lián)系,但又不是很密切,同時自己的深度和理解還不夠,所以文章比較渙散,但作為總結分享出來,你也可以簡單學習。后面如果我寫畢業(yè)論文相關的博客,文章相關度和層次就一目了然了。

(By:Eastmount 2015-6-29 半夜4點半http://blog.csdn.net/eastmount/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容