剛接觸知識圖譜,最近也在學習王昊奮老師的視頻,做小小的總結,不好的地方多多指正!
一、知識圖譜(Knowledge Graph,KG)與語義技術概述
KG,2012谷歌提出,作用是能輔助搜索(從網頁搜索到語義搜索,從文本鏈接到數據鏈接),輔助問答,輔助決策,輔助AI(常識推理);
人的記憶偏重關聯;
知識表示方法:框架系統、產生式規則、描述邏輯;
知識庫形成:手工眾包、格式轉化、元組抽取、實體融合、鏈接預測、推理預測、語義嵌入
二、典型知識庫系統簡介
CYC:常識知識庫,由術語Term和斷言Assertions組成,http://www.cyc.com
Wordnet:英文詞典知識庫,主要用于詞義消歧http://wordnet.princeton.com/
ConceptNet:常識知識庫,三元組形式的關系型知識構成,更加自然語言的描述http://conceptnet.io/
Freebase:開源免費允許商業http://www.freebase.com
Wikidata:http://wikidata.org/
DBPedia:http://dbpedia.org
YAGO:集成Wikidata、Wordne、GeoNameshttp://mpii.de/yago
Babelnet:多語言詞典數據庫http://babelnet.org/
NELL:三元組知識庫,采用互聯網挖掘的方法從Web自動抽取http://rtw.ml.cmu.edu/
微軟Concept Graph:用于文本理解和語義消歧http://concept.research.microsoft.com
Open KG:中文KG資源庫
Zhshi.me:http://zhishi.me
cnSchema:基于社區維護的開中文KGhttp://caschema.org
三、KG技術概覽
什么是知識表示?
利用計算機符號來表示人腦中的知識,以及通過符號之間的運算來模擬人腦的推理過程。
語義網知識表示框架?
什么是三元組:主(節點)謂(邊)賓(節點)
SPARQL是RDF的查詢語言,類似SQL
JSON-LD:數據交換格式????
RDFa,HTML5 MicroData:在網頁中嵌入語義數據
知識抽取:NLP(自然語言)+KR(知識推理)
知識存儲:基于關系數據庫的存儲和基于原生圖的的存儲
知識問答(KBQA):有一個知識庫回答提問
知識推理:基于已知事實推出未知的事實,分類:(解決方法)基于描述邏輯、規則挖掘、概率邏輯、學習與神經網絡的推理,(推理類型)缺省、連續變化、空間、因果關系推理
知識融合:工具-Dedupe(基于python的工具包),工具-LIMES,不要求兩個數據集的實體具有相似的數據結構http://openkg/tool/limes
知識眾包:Wikibase、Schema.ORG?
四、典型案列簡介
Open PHACTS(歐盟重大聯合攻關項目),面向藥物研發
中醫藥知識平臺
電商知識圖譜(阿里):電商管控,自動審核,不良商品下架
企業知識圖譜應用(SAP)
金融:鏈接金融數據
大英博物館:知識圖譜與本體設計
BBC:打通BBC全領域