知識圖譜是什么?恐怕是每個對知識圖譜感興趣的人都會首先思考的問題。縱觀網(wǎng)絡(luò)有很多人試圖從各種角度給過解釋,筆者在與很多行業(yè)從業(yè)者交流過程中,發(fā)現(xiàn)并不是每個人都能清晰地表達(dá)出“知識圖譜是什么”這個問題;或其自身是清楚的,但是傳遞過程中總有種“茶壺倒餃子”的感覺。究其根本可能是如下三個原因?qū)е拢?/p>
1. 知識圖譜在自身演化過程中引入了哲學(xué)概念中的本體論(Ontology),用于刻畫知識,本體如何理解呢?我們看下維基百科對其的解釋:
本體論(英語:Ontology),又譯存在論、存有論,是形而上學(xué)的基本分支,本體論主要探討存有本身,即一切現(xiàn)實事物的基本特征。
2. 知識圖譜綜合了眾多方面的技術(shù)和方法,有知識表示(RDF、OWL...)、知識抽取(D2R、NER命名實體識別、關(guān)系抽取...)、知識融合(實體對齊Entity Alignment...)、知識存儲(圖數(shù)據(jù)庫存儲、RDF存儲...)、知識推理(歸納推理、演繹推理、符號推理...)、圖計算(子圖匹配、最短路徑...)、可視化、語義搜索、知識問答、知識眾包...
很多初學(xué)者一提到知識圖譜就認(rèn)為是圖數(shù)據(jù)庫,入門后認(rèn)為知識圖譜的存儲只能用圖數(shù)據(jù)實現(xiàn),等等這些想法都是錯誤的。今后不要再有類似不專業(yè)的言論:“我會知識圖譜,因為我會用neo4j”,“最近我們公司想引入知識圖譜,你們用的哪種圖數(shù)據(jù)庫?”
3. 解釋的時候要考慮你的受眾,知識圖譜由于其可解釋性等優(yōu)勢,在人工智能火熱的今天受到各行各業(yè)的關(guān)注,結(jié)合提問的受眾背景知識,需要有針對性的解釋,而不是每個人都回答“Things, Not Strings”,雖然這句話很精髓,但是你要明白你不是谷歌。
這篇文章題目叫“知識圖譜是什么”,我們從兩個方面來介紹,一個是目前看到的精彩定義,每個解釋都是高度凝練和專業(yè);另外一個是筆者口語化的總結(jié)思考,希望對你理解這個問題有幫助。
1. 谷歌的定義
谷歌在2012年基于語義網(wǎng)、Linked Data發(fā)布了知識圖譜,主要用于提高谷歌搜索的質(zhì)量,因此谷歌對知識圖譜的解釋更側(cè)重于自身的搜索業(yè)務(wù)。
Google知識圖譜(英語:Google Knowledge Graph,也稱Google知識圖)是Google的一個知識庫,其使用語義檢索從多種來源收集信息,以提高Google搜索的質(zhì)量。知識圖譜2012年加入Google搜索,2012年5月16日正式發(fā)布,首先可在美國使用。知識圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。其目標(biāo)是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息。
在谷歌的官方博客上,我們可以查看到Amit Singhal在2012年5月16日發(fā)表的博文,提到“知識圖譜從三個方面增強谷歌的搜索”:
? ? - Find the right thing
? ? -?Get the best summary
? ? -?Go deeper and broader
2. 王昊奮的定義
昊奮老師是知識圖譜方面的專家,深入?yún)⑴c過IBM Watson系統(tǒng)的研發(fā)工作。
知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標(biāo)識,稱為它們的標(biāo)識符。每個屬性-值對用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。
這個解釋形象且完整的說明了知識圖譜的基本組成元素,包括實體、概念、屬性、關(guān)系,以及它們所代表的含義和相互之間的關(guān)系。實體或概念就是圖上的一個個節(jié)點;屬性-值是節(jié)點的內(nèi)在特征;關(guān)系是節(jié)點和節(jié)點之間的關(guān)聯(lián),圖上表現(xiàn)為兩個節(jié)點之間的連線。
3. 漆桂林的定義
漆老師是東南大學(xué)計算機科學(xué)與工程學(xué)院的教授,著有《面向語義Web的知識管理技術(shù)》一書,17年發(fā)表的《知識圖譜研究進(jìn)展》既回顧了知識圖譜的歷史,又探討了知識圖譜研究的意義,是了解熟悉圖譜不可多得的優(yōu)秀文章。
漆老師對知識圖譜及其意義的定義如下:
知識圖譜是人工智能中研究如何將人類的知識轉(zhuǎn)化為圖,從而方便計算機存儲并用于推理,計算機可以通過知識圖譜實現(xiàn)從感知智能到認(rèn)知智能的飛躍,支持智能問答、輔助決策、智能分析等應(yīng)用。
漆老師作為一個完美主義者,對這個定義并不是最滿意。該定義說明了知識圖譜中幾個要點問題
? ? - 知識圖譜是人工智能中的一項重要技術(shù),實際上它是與深度學(xué)習(xí)并行的人工智能三個流派之一,屬于符號主義
? ? - 為什么要用圖的方式來組織和描述人類知識?因為圖結(jié)構(gòu)更便于計算機存儲,同時可用于后期的知識推理等智能應(yīng)用
? ? - 目前是人工智能發(fā)展的第三個重要階段,前兩個分別是計算智能和感知智能,知識圖譜是實現(xiàn)機器認(rèn)知智能的關(guān)鍵技術(shù)
? ? - 知識圖譜目前在工業(yè)屆已經(jīng)擁有很多成熟的落地應(yīng)用,典型的有智能問答、輔助決策、智能分析等
4. 劉煥勇 薛云志的定義
最近劉老師與薛老師的文章《事理圖譜,下一代知識圖譜》探討了從知識圖譜到事理圖譜的區(qū)別和聯(lián)系,非常值得一讀的文章,目前以傳統(tǒng)本體概念為基礎(chǔ)進(jìn)行知識組織的偏靜態(tài)知識圖譜越來越顯露出其局限性,對動態(tài)特征描述的事理圖譜將是將來的發(fā)展方向。有關(guān)動態(tài)事件、時空、權(quán)重、地域等知識的利用,在后續(xù)文章中我們結(jié)合實際案例進(jìn)行介紹。
這篇文章中從多個視角來看待知識圖譜,每個視角都代表了不同角色看待問題的角度,筆者曾在不同場合針對不同受眾對知識圖譜有過不同的解釋,這篇文章里的定義是我目前看過最系統(tǒng)和全面的。
從AI的視角來看,知識圖譜是一種理解人類語言的知識庫,
從數(shù)據(jù)庫視角來看,知識圖譜是一種新型的知識存儲結(jié)構(gòu);
從知識表示視角來看,知識圖譜是計算機理解知識的一種方法;
從web視角來看,知識圖譜是知識數(shù)據(jù)之間的一種語義互聯(lián)。
曾有人問過我:“知識圖譜與知識庫有什么區(qū)別?”從狹義的角度來講,它可以看做一種理解人類語言的知識庫,行業(yè)知識圖譜即為行業(yè)知識庫,本質(zhì)上以一種新型的結(jié)構(gòu)組織的知識庫,相對于傳統(tǒng)知識庫,可能更容易基于圖譜做智能的拓展和應(yīng)用。
我們一直講,知識圖譜并不是一個新興的技術(shù),而是從最初的邏輯語義網(wǎng)(semantic-net)、到語義網(wǎng)絡(luò)(semantic-web)再到Linked-data不斷演變而來,因此需要對其有客觀的認(rèn)知,任何一個新的技術(shù)都不是對“舊”技術(shù)的顛覆,而是站在巨人肩膀上所取得的成果,要記住知識圖譜不是“銀彈”。
5. 口語版“知識圖譜是什么?”
以下是筆者結(jié)合自身經(jīng)歷總結(jié)的極其不凝練的定義,如有不夠準(zhǔn)確的地方歡迎討論。
知識圖譜被稱為人工智能的基石,它的前身是語義網(wǎng),由谷歌在2012年率先提出,用于改善自身的搜索業(yè)務(wù)。
如果將人工智能比作一個人的話,那么圖像識別可以看做人類的眼睛,語音識別與合成看做人的耳朵和嘴巴,知識圖譜就是是人的大腦,因此可見其重要性。
我們?nèi)祟惖拇竽X存儲了對客觀世界的主觀認(rèn)知,這些知識人類可以理解,可是機器不能。我們知道互聯(lián)網(wǎng)本質(zhì)是一個描述資源和資源之間關(guān)系的網(wǎng)絡(luò),RDF則是一種資源的描述方式,簡單來說,每一種描述都是一個主謂賓三元組,因此RDF幾乎可以描述我們整個客觀世界,而它的另外一個好處在于是機器可理解的。
對于傳統(tǒng)知識圖譜我們可以簡單抽象出概念、實體、屬性、關(guān)系、時序等要素,概念是一類實例的集合,實體就是具體的一個個實例,屬性表示實例內(nèi)在的特性,關(guān)系更多的側(cè)重于外在,舉個例子,比如:我正在聽《安靜》這首歌,我是一個實體,屬于人這個概念;安靜是一首歌,是屬于歌曲概念下的一個實體;聽是我和安靜這兩個實體之間正在發(fā)生的關(guān)系;因此在知識圖譜里我和安靜可以分別用一個節(jié)點來表示,我們之間的關(guān)系用一條線進(jìn)行連接,這條線就代表聽歌這個關(guān)系;<我, 聽, 安靜>。同時我作為一個實體有自己的內(nèi)在屬性,比如身高、體重、性別;<我, 性別, 男>。這一條條基本的三元組可以非常方便的轉(zhuǎn)換成圖,存儲于計算機中,從而組成知識圖譜。
以此類推,世間萬事萬物都可以以這種方式存儲在計算機中,后續(xù)在這樣一個知識庫之上增加各種規(guī)則、模型、算法,即可以提供我們實際使用到的各類智能應(yīng)用。