【劉知遠(yuǎn)】知識(shí)圖譜——機(jī)器大腦中的知識(shí)庫(kù)

作者:劉知遠(yuǎn)(清華大學(xué));整理:林穎(RPI) 本文來(lái)自Big Data Intelligence
知識(shí)就是力量。——[英]弗蘭西斯·培根
1 什么是知識(shí)圖譜
在互聯(lián)網(wǎng)時(shí)代,搜索引擎是人們?cè)诰€獲取信息和知識(shí)的重要工具。當(dāng)用戶輸入一個(gè)查詢?cè)~,搜索引擎會(huì)返回它認(rèn)為與這個(gè)關(guān)鍵詞最相關(guān)的網(wǎng)頁(yè)。從誕生之日起,搜索引擎就是這樣的模式,直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁(yè)面中首次引入“知識(shí)圖譜”:用戶除了得到搜索網(wǎng)頁(yè)鏈接外,還將看到與查詢?cè)~有關(guān)的更加智能化的答案。如下圖所示,當(dāng)用戶輸入“Marie Curie”(瑪麗·居里)這個(gè)查詢?cè)~,谷歌會(huì)在右側(cè)提供了居里夫人的詳細(xì)信息,如個(gè)人簡(jiǎn)介、出生地點(diǎn)、生卒年月等,甚至還包括一些與居里夫人有關(guān)的歷史人物,例如愛(ài)因斯坦、皮埃爾·居里(居里夫人的丈夫)等。


圖1-1 谷歌搜索引擎知識(shí)圖譜
谷歌知識(shí)圖譜一出激起千層浪,美國(guó)的微軟必應(yīng),中國(guó)的百度、搜狗等搜索引擎公司在短短的一年內(nèi)紛紛宣布了各自的“知識(shí)圖譜”產(chǎn)品,如百度“知心“、搜狗“知立方“等。為什么這些搜索引擎巨頭紛紛跟進(jìn)知識(shí)圖譜,在這上面一擲千金,甚至把它視為搜索引擎的未來(lái)呢?這就需要從傳統(tǒng)搜索引擎的原理講起。以百度為例,在過(guò)去當(dāng)我們想知道“泰山”的相關(guān)信息的時(shí)候,我們會(huì)在百度上搜索“泰山”,它會(huì)嘗試將這個(gè)字符串與百度抓取的大規(guī)模網(wǎng)頁(yè)做比對(duì),根據(jù)網(wǎng)頁(yè)與這個(gè)查詢?cè)~的相關(guān)程度,以及網(wǎng)頁(yè)本身的重要性,對(duì)網(wǎng)頁(yè)進(jìn)行排序,作為搜索結(jié)果返回給用戶。而用戶所需的與“泰山”相關(guān)的信息,就還要他們自己動(dòng)手,去訪問(wèn)這些網(wǎng)頁(yè)來(lái)找了。
當(dāng)然,與搜索引擎出現(xiàn)之前相比,搜索引擎由于大大縮小了用戶查找信息的范圍,隨著網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),日益成為人們遨游信息海洋的不可或缺的工具。但是,傳統(tǒng)搜索引擎的工作方式表明,它只是機(jī)械地比對(duì)查詢?cè)~和網(wǎng)頁(yè)之間的匹配關(guān)系,并沒(méi)有真正理解用戶要查詢的到底是什么,遠(yuǎn)遠(yuǎn)不夠“聰明”,當(dāng)然經(jīng)常會(huì)被用戶嫌棄了。
而知識(shí)圖譜則會(huì)將“泰山”理解為一個(gè)“實(shí)體”(entity),也就是一個(gè)現(xiàn)實(shí)世界中的事物。這樣,搜索引擎會(huì)在搜索結(jié)果的右側(cè)顯示它的基本資料,例如地理位置、海拔高度、別名,以及百科鏈接等等,此外甚至還會(huì)告訴你一些相關(guān)的“實(shí)體”,如嵩山、華山、衡山和恒山等其他三山五岳等。當(dāng)然,用戶輸入的查詢?cè)~并不見(jiàn)得只對(duì)應(yīng)一個(gè)實(shí)體,例如當(dāng)在谷歌中查詢“apple”(蘋(píng)果)時(shí),谷歌不止展示IT巨頭“Apple-Corporation”(蘋(píng)果公司)的相關(guān)信息,還會(huì)在其下方列出“apple-plant”(蘋(píng)果-植物)的另外一種實(shí)體的信息。
從雜亂的網(wǎng)頁(yè)到結(jié)構(gòu)化的實(shí)體知識(shí),搜索引擎利用知識(shí)圖譜能夠?yàn)橛脩籼峁└邨l理的信息,甚至順著知識(shí)圖譜可以探索更深入、廣泛和完整的知識(shí)體系,讓用戶發(fā)現(xiàn)他們意想不到的知識(shí)。谷歌高級(jí)副總裁艾米特·辛格博士一語(yǔ)道破知識(shí)圖譜的重要意義所在:“構(gòu)成這個(gè)世界的是實(shí)體,而非字符串(things, not strings)”。
很明顯,以谷歌為代表的搜索引擎公司希望利用知識(shí)圖譜為查詢?cè)~賦予豐富的語(yǔ)義信息,建立與現(xiàn)實(shí)世界實(shí)體的關(guān)系,從而幫助用戶更快找到所需的信息。谷歌知識(shí)圖譜不僅從 Freebase和維基百科等知識(shí)庫(kù)中獲取專業(yè)信息,同時(shí)還通過(guò)分析大規(guī)模網(wǎng)頁(yè)內(nèi)容抽取知識(shí)。現(xiàn)在谷歌的這幅知識(shí)圖譜已經(jīng)將5億個(gè)實(shí)體編織其中,建立了35 億個(gè)屬性和相互關(guān)系,并在不斷高速擴(kuò)充。
谷歌知識(shí)圖譜正在不斷融入其各大產(chǎn)品中服務(wù)廣大用戶。最近,谷歌在Google Play Store的Google Play Movies & TV應(yīng)用中添加了一個(gè)新的功能,當(dāng)用戶使用安卓系統(tǒng)觀看視頻時(shí),暫停播放,視頻旁邊就會(huì)自動(dòng)彈出該屏幕上人物或者配樂(lè)的信息。這些信息就是來(lái)自谷歌知識(shí)圖譜。谷歌會(huì)圈出播放器窗口所有人物的臉部,用戶可以點(diǎn)擊每一個(gè)人物的臉來(lái)查看相關(guān)信息。此前,Google Books 已經(jīng)應(yīng)用此功能。


圖1-2 Google利用知識(shí)圖譜標(biāo)示視頻中的人物和音樂(lè)信息
2 知識(shí)圖譜的構(gòu)建
最初知識(shí)圖譜是谷歌推出的產(chǎn)品名稱,與Facebook提出的社交圖譜(Social Graph)異曲同工。由于其表意形象,現(xiàn)在知識(shí)圖譜已經(jīng)被用來(lái)泛指各種大規(guī)模知識(shí)庫(kù)。
我們應(yīng)當(dāng)如何構(gòu)建知識(shí)圖譜呢?首先,我們先了解一下,知識(shí)圖譜的數(shù)據(jù)來(lái)源都有哪些。知識(shí)圖譜的最重要的數(shù)據(jù)來(lái)源之一是以維基百科、百度百科為代表的大規(guī)模知識(shí)庫(kù),在這些由網(wǎng)民協(xié)同編輯構(gòu)建的知識(shí)庫(kù)中,包含了大量結(jié)構(gòu)化的知識(shí),可以高效地轉(zhuǎn)化到知識(shí)圖譜中。此外,互聯(lián)網(wǎng)的海量網(wǎng)頁(yè)中也蘊(yùn)藏了海量知識(shí),雖然相對(duì)知識(shí)庫(kù)而言這些知識(shí)更顯雜亂,但通過(guò)自動(dòng)化技術(shù),也可以將其抽取出來(lái)構(gòu)建知識(shí)圖譜。接下來(lái),我們分別詳細(xì)介紹這些識(shí)圖譜數(shù)據(jù)來(lái)源。
2.1 大規(guī)模知識(shí)庫(kù)
大規(guī)模知識(shí)庫(kù)以詞條作為基本組織單位,每個(gè)詞條對(duì)應(yīng)現(xiàn)實(shí)世界的某個(gè)概念,由世界各地的編輯者義務(wù)協(xié)同編纂內(nèi)容。隨著互聯(lián)網(wǎng)的普及和Web 2.0理念深入人心,這類協(xié)同構(gòu)建的知識(shí)庫(kù),無(wú)論是數(shù)量、質(zhì)量還是更新速度,都早已超越傳統(tǒng)由專家編輯的百科全書(shū),成為人們獲取知識(shí)的主要來(lái)源之一。目前,維基百科已經(jīng)收錄了超過(guò)2200萬(wàn)詞條,而僅英文版就收錄了超過(guò)400萬(wàn)條,遠(yuǎn)超過(guò)英文百科全書(shū)中最權(quán)威的大英百科全書(shū)的50萬(wàn)條,是全球?yàn)g覽人數(shù)排名第6的網(wǎng)站。值得一提的是,2012年大英百科全書(shū)宣布停止印刷版發(fā)行,全面轉(zhuǎn)向電子化。這也從一個(gè)側(cè)面說(shuō)明在線大規(guī)模知識(shí)庫(kù)的影響力。人們?cè)谥R(shí)庫(kù)中貢獻(xiàn)了大量結(jié)構(gòu)化的知識(shí)。如下圖所示,是維基百科關(guān)于“清華大學(xué)”的詞條內(nèi)容。可以看到,在右側(cè)有一個(gè)列表,標(biāo)注了與清華有關(guān)的各類重要信息,如校訓(xùn)、創(chuàng)建時(shí)間、校慶日、學(xué)校類型、校長(zhǎng),等等。在維基百科中,這個(gè)列表被稱為信息框(infobox),是由編輯者們共同編輯而成。信息框中的結(jié)構(gòu)化信息是知識(shí)圖譜的直接數(shù)據(jù)來(lái)源。
除了維基百科等大規(guī)模在線百科外,各大搜索引擎公司和機(jī)構(gòu)還維護(hù)和發(fā)布了其他各類大規(guī)模知識(shí)庫(kù),例如谷歌收購(gòu)的Freebase,包含3900萬(wàn)個(gè)實(shí)體和18億條實(shí)體關(guān)系;DBpedia是德國(guó)萊比錫大學(xué)等機(jī)構(gòu)發(fā)起的項(xiàng)目,從維基百科中抽取實(shí)體關(guān)系,包括1千萬(wàn)個(gè)實(shí)體和14億條實(shí)體關(guān)系;YAGO則是德國(guó)馬克斯·普朗克研究所發(fā)起的項(xiàng)目,也是從維基百科和WordNet等知識(shí)庫(kù)中抽取實(shí)體,到2010年該項(xiàng)目已包含1千萬(wàn)個(gè)實(shí)體和1.2億條實(shí)體關(guān)系。此外,在眾多專門(mén)領(lǐng)域還有領(lǐng)域?qū)<艺淼念I(lǐng)域知識(shí)庫(kù)。


圖2-1 維基百科詞條“清華大學(xué)”部分內(nèi)容
2.2 互聯(lián)網(wǎng)鏈接數(shù)據(jù)
國(guó)際萬(wàn)維網(wǎng)組織W3C在2007年發(fā)起了開(kāi)放互聯(lián)數(shù)據(jù)項(xiàng)目(Linked Open Data,LOD)。該項(xiàng)目旨在將由互聯(lián)文檔組成的萬(wàn)維網(wǎng)(Web of documents)擴(kuò)展成由互聯(lián)數(shù)據(jù)組成的知識(shí)空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上發(fā)布各種開(kāi)放數(shù)據(jù)集,RDF是一種描述結(jié)構(gòu)化知識(shí)的框架,它將實(shí)體間的關(guān)系表示為 (實(shí)體1, 關(guān)系, 實(shí)體2) 的三元組。LOD還允許在不同來(lái)源的數(shù)據(jù)項(xiàng)之間設(shè)置RDF鏈接,實(shí)現(xiàn)語(yǔ)義Web知識(shí)庫(kù)。目前世界各機(jī)構(gòu)已經(jīng)基于LOD標(biāo)準(zhǔn)發(fā)布了數(shù)千個(gè)數(shù)據(jù)集,包含數(shù)千億RDF三元組。隨著LOD項(xiàng)目的推廣和發(fā)展,互聯(lián)網(wǎng)會(huì)有越來(lái)越多的信息以鏈接數(shù)據(jù)形式發(fā)布,然而各機(jī)構(gòu)發(fā)布的鏈接數(shù)據(jù)之間存在嚴(yán)重的異構(gòu)和冗余等問(wèn)題,如何實(shí)現(xiàn)多數(shù)據(jù)源的知識(shí)融合,是LOD項(xiàng)目面臨的重要問(wèn)題。


圖2-2 開(kāi)放互聯(lián)數(shù)據(jù)項(xiàng)目發(fā)布數(shù)據(jù)集示意圖
2.3 互聯(lián)網(wǎng)網(wǎng)頁(yè)文本數(shù)據(jù)
與整個(gè)互聯(lián)網(wǎng)相比,維基百科等知識(shí)庫(kù)仍只能算滄海一粟。因此,人們還需要從海量互聯(lián)網(wǎng)網(wǎng)頁(yè)中直接抽取知識(shí)。與上述知識(shí)庫(kù)的構(gòu)建方式不同,很多研究者致力于直接從無(wú)結(jié)構(gòu)的互聯(lián)網(wǎng)網(wǎng)頁(yè)中抽取結(jié)構(gòu)化信息,如華盛頓大學(xué)Oren Etzioni教授主導(dǎo)的“開(kāi)放信息抽取”(open information extraction,OpenIE)項(xiàng)目,以及卡耐基梅隆大學(xué)Tom Mitchell教授主導(dǎo)的“永不停止的語(yǔ)言學(xué)習(xí)”(never-ending language learning, NELL)項(xiàng)目。OpenIE項(xiàng)目所開(kāi)發(fā)的演示系統(tǒng)TextRunner已經(jīng)從1億個(gè)網(wǎng)頁(yè)中抽取出了5億條事實(shí),而NELL項(xiàng)目也抽取了超過(guò)5千萬(wàn)條事實(shí)。
顯而易見(jiàn),與從維基百科中抽取的知識(shí)庫(kù)相比,開(kāi)放信息抽取從無(wú)結(jié)構(gòu)網(wǎng)頁(yè)中抽取的信息準(zhǔn)確率還很低,其主要原因在于網(wǎng)頁(yè)形式多樣,噪音信息較多,信息可信度較低。因此,也有一些研究者嘗試限制抽取的范圍,例如只從網(wǎng)頁(yè)表格等內(nèi)容中抽取結(jié)構(gòu)信息,并利用互聯(lián)網(wǎng)的多個(gè)來(lái)源互相印證,從而大大提高抽取信息的可信度和準(zhǔn)確率。當(dāng)然這種做法也會(huì)大大降低抽取信息的覆蓋面。天下沒(méi)有免費(fèi)的午餐,在大數(shù)據(jù)時(shí)代,我們需要在規(guī)模和質(zhì)量之間尋找一個(gè)最佳的平衡點(diǎn)。
2.4 多數(shù)據(jù)源的知識(shí)融合
從以上數(shù)據(jù)來(lái)源進(jìn)行知識(shí)圖譜構(gòu)建并非孤立進(jìn)行。在商用知識(shí)圖譜構(gòu)建過(guò)程中,需要實(shí)現(xiàn)多數(shù)據(jù)源的知識(shí)融合。以谷歌最新發(fā)布的Knowledge Vault (Dong, et al. 2014)技術(shù)為例,其知識(shí)圖譜的數(shù)據(jù)來(lái)源包括了文本、DOM Trees、HTML表格、RDF語(yǔ)義數(shù)據(jù)等多個(gè)來(lái)源。多來(lái)源數(shù)據(jù)的融合,能夠更有效地判定抽取知識(shí)的可信性。
知識(shí)融合主要包括實(shí)體融合、關(guān)系融合和實(shí)例融合。對(duì)于實(shí)體,人名、地名、機(jī)構(gòu)名往往有多個(gè)名稱。例如“中國(guó)移動(dòng)通信集團(tuán)公司”有“中國(guó)移動(dòng)”、“中移動(dòng)”、“移動(dòng)通信”等名稱。我們需要將這些不同名稱規(guī)約到同一個(gè)實(shí)體下。同一個(gè)實(shí)體在不同語(yǔ)言、不同國(guó)家和地區(qū)往往會(huì)有不同命名,例如著名足球明星Beckham在大陸漢語(yǔ)中稱作“貝克漢姆”,在香港譯作“碧咸”,而在臺(tái)灣則被稱為“貝克漢”。與此對(duì)應(yīng)的,同一個(gè)名字在不同語(yǔ)境下可能會(huì)對(duì)應(yīng)不同實(shí)體,這是典型的一詞多義問(wèn)題,例如“蘋(píng)果”有時(shí)是指一種水果,有時(shí)則指的是一家著名IT公司。在這樣復(fù)雜的多對(duì)多對(duì)應(yīng)關(guān)系中,如何實(shí)現(xiàn)實(shí)體融合是非常復(fù)雜而重要的課題。如前面開(kāi)放信息抽取所述,同一種關(guān)系可能會(huì)有不同的命名,這種現(xiàn)象在不同數(shù)據(jù)源中抽取出的關(guān)系中尤其顯著。與實(shí)體融合類似,關(guān)系融合對(duì)于知識(shí)融合至關(guān)重要。在實(shí)現(xiàn)了實(shí)體和關(guān)系融合之后,我們就可以實(shí)現(xiàn)三元組實(shí)例的融合。不同數(shù)據(jù)源會(huì)抽取出相同的三元組,并給出不同的評(píng)分。根據(jù)這些評(píng)分,以及不同數(shù)據(jù)源的可信度,我們就可以實(shí)現(xiàn)三元組實(shí)例的融合與抽取。
知識(shí)融合既有重要的研究挑戰(zhàn),又需要豐富的工程經(jīng)驗(yàn)。知識(shí)融合是實(shí)現(xiàn)大規(guī)模知識(shí)圖譜的必由之路。知識(shí)融合的好壞,往往決定了知識(shí)圖譜項(xiàng)目的成功與否,值得任何有志于大規(guī)模知識(shí)圖譜構(gòu)建與應(yīng)用的人士高度重視。
3 知識(shí)圖譜的典型應(yīng)用
知識(shí)圖譜將搜索引擎從字符串匹配推進(jìn)到實(shí)體層面,可以極大地改進(jìn)搜索效率和效果,為下一代搜索引擎的形態(tài)提供了巨大的想象空間。知識(shí)圖譜的應(yīng)用前景遠(yuǎn)不止于此,目前知識(shí)圖譜已經(jīng)被廣泛應(yīng)用于以下幾個(gè)任務(wù)中。
3.1 查詢理解(Query Understanding)
谷歌等搜索引擎巨頭之所以致力于構(gòu)建大規(guī)模知識(shí)圖譜,其重要目標(biāo)之一就是能夠更好地理解用戶輸入的查詢?cè)~。用戶查詢?cè)~是典型的短文本(short text),一個(gè)查詢?cè)~往往僅由幾個(gè)關(guān)鍵詞構(gòu)成。傳統(tǒng)的關(guān)鍵詞匹配技術(shù)沒(méi)有理解查詢?cè)~背后的語(yǔ)義信息,查詢效果可能會(huì)很差。
例如,對(duì)于查詢?cè)~“李娜 大滿貫”,如果僅用關(guān)鍵詞匹配的方式,搜索引擎根本不懂用戶到底希望尋找哪個(gè)“李娜”,而只會(huì)機(jī)械地返回所有含有“李娜”這個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。但通過(guò)利用知識(shí)圖譜識(shí)別查詢?cè)~中的實(shí)體及其屬性,搜索引擎將能夠更好地理解用戶搜索意圖。現(xiàn)在,我們到谷歌中查詢“李娜 大滿貫”,會(huì)發(fā)現(xiàn),首先谷歌會(huì)利用知識(shí)圖譜在頁(yè)面右側(cè)呈現(xiàn)中國(guó)網(wǎng)球運(yùn)動(dòng)員李娜的基本信息,我們可以知道這個(gè)李娜是指的中國(guó)網(wǎng)球女運(yùn)動(dòng)員。同時(shí),谷歌不僅像傳統(tǒng)搜索引擎那樣返回匹配的網(wǎng)頁(yè),更會(huì)直接在頁(yè)面最頂端返回李娜贏得大滿貫的次數(shù)“2”。


圖3-1 谷歌中對(duì)“李娜 大滿貫”的查詢結(jié)果
主流商用搜索引擎基本都支持這種直接返回查詢結(jié)果而非網(wǎng)頁(yè)的功能,這背后都離不開(kāi)大規(guī)模知識(shí)圖譜的支持。以百度為例,下圖是百度中對(duì)“珠穆朗瑪峰高度”的查詢結(jié)果,百度直接告訴用戶珠穆朗瑪峰的高度是8844.43米。


圖3-2 百度中對(duì)“珠穆朗瑪峰高度”的查詢結(jié)果
基于知識(shí)圖譜,搜索引擎還能獲得簡(jiǎn)單的推理能力。例如,下圖是百度中對(duì)“梁?jiǎn)⒊膬鹤拥钠拮印钡牟樵兘Y(jié)果,百度能夠利用知識(shí)圖譜知道梁?jiǎn)⒊膬鹤邮橇核汲桑核汲傻钠拮邮橇只找虻热恕?/p>

圖3-3 百度中對(duì)“梁?jiǎn)⒊膬鹤拥钠拮印钡牟樵兘Y(jié)果
采用知識(shí)圖譜理解查詢意圖,不僅可以返回更符合用戶需求的查詢結(jié)果,還能更好地匹配商業(yè)廣告信息,提高廣告點(diǎn)擊率,增加搜索引擎受益。因此,知識(shí)圖譜對(duì)搜索引擎公司而言,是一舉多得的重要資源和技術(shù)。
3.2 自動(dòng)問(wèn)答(Question Answering)
人們一直在探索比關(guān)鍵詞查詢更高效的互聯(lián)網(wǎng)搜索方式。很多學(xué)者預(yù)測(cè),下一代搜索引擎將能夠直接回答人們提出的問(wèn)題,這種形式被稱為自動(dòng)問(wèn)答。例如著名計(jì)算機(jī)學(xué)者、美國(guó)華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、圖靈中心主任Oren Etzioni于2011年就在Nature雜志上發(fā)表文章“搜索需要一場(chǎng)變革“(Search Needs a Shake-Up)。該文指出,一個(gè)可以理解用戶問(wèn)題,從網(wǎng)絡(luò)信息中抽取事實(shí),并最終選出一個(gè)合適答案的搜索引擎,才能將我們帶到信息獲取的制高點(diǎn)。如上節(jié)所述,目前搜索引擎已經(jīng)支持對(duì)很多查詢直接返回精確答案而非海量網(wǎng)頁(yè)而已。
關(guān)于自動(dòng)問(wèn)答,我們將有專門(mén)的章節(jié)介紹。這里,我們需要著重指出的是,知識(shí)圖譜的重要應(yīng)用之一就是作為自動(dòng)問(wèn)答的知識(shí)庫(kù)。在搜狗推出中文知識(shí)圖譜服務(wù)”知立方“的時(shí)候,曾經(jīng)以回答”梁?jiǎn)⒊膬鹤拥奶那槿说母赣H是誰(shuí)?“這種近似腦筋急轉(zhuǎn)彎似的問(wèn)題作為案例,來(lái)展示其知識(shí)圖譜的強(qiáng)大推理能力。雖然大部分用戶不會(huì)這樣拐彎抹角的提問(wèn),但人們會(huì)經(jīng)常需要尋找諸如”劉德華的妻子是誰(shuí)?“、”侏羅紀(jì)公園的主演是誰(shuí)?“、“姚明的身高?”以及”北京有幾個(gè)區(qū)?“等問(wèn)題的答案。而這些問(wèn)題都需要利用知識(shí)圖譜中實(shí)體的復(fù)雜關(guān)系推理得到。無(wú)論是理解用戶查詢意圖,還是探索新的搜索形式,都毫無(wú)例外需要進(jìn)行語(yǔ)義理解和知識(shí)推理,而這都需要大規(guī)模、結(jié)構(gòu)化的知識(shí)圖譜的有力支持,因此知識(shí)圖譜成為各大互聯(lián)網(wǎng)公司的必爭(zhēng)之地。
最近,微軟聯(lián)合創(chuàng)始人Paul Allen投資創(chuàng)建了艾倫人工智能研究院(Allen Institute for Artificial Intelligence),致力于建立具有學(xué)習(xí)、推理和閱讀能力的智能系統(tǒng)。2013年底,Paul Allen任命Oren Etzioni教授擔(dān)任艾倫人工智能研究院的執(zhí)行主任,該任命所釋放的信號(hào)頗值得我們思考。
3.3 文檔表示(Document Representation)
經(jīng)典的文檔表示方案是空間向量模型(Vector Space Model),該模型將文檔表示為詞匯的向量,而且采用了詞袋(Bag-of-Words,BOW)假設(shè),不考慮文檔中詞匯的順序信息。這種文檔表示方案與上述的基于關(guān)鍵詞匹配的搜索方案相匹配,由于其表示簡(jiǎn)單,效率較高,是目前主流搜索引擎所采用的技術(shù)。文檔表示是自然語(yǔ)言處理很多任務(wù)的基礎(chǔ),如文檔分類、文檔摘要、關(guān)鍵詞抽取,等等。
經(jīng)典文檔表示方案已經(jīng)在實(shí)際應(yīng)用中暴露出很多固有的嚴(yán)重缺陷,例如無(wú)法考慮詞匯之間的復(fù)雜語(yǔ)義關(guān)系,無(wú)法處理對(duì)短文本(如查詢?cè)~)的稀疏問(wèn)題。人們一直在嘗試解決這些問(wèn)題,而知識(shí)圖譜的出現(xiàn)和發(fā)展,為文檔表示帶來(lái)新的希望,那就是基于知識(shí)的文檔表示方案。一篇文章不再只是由一組代表詞匯的字符串來(lái)表示,而是由文章中的實(shí)體及其復(fù)雜語(yǔ)義關(guān)系來(lái)表示(Schuhmacher, et al. 2014)。該文檔表示方案實(shí)現(xiàn)了對(duì)文檔的深度語(yǔ)義表示,為文檔深度理解打下基礎(chǔ)。一種最簡(jiǎn)單的基于知識(shí)圖譜的文檔表示方案,可以將文檔表示為知識(shí)圖譜的一個(gè)子圖(sub-graph),即用該文檔中出現(xiàn)或涉及的實(shí)體及其關(guān)系所構(gòu)成的圖表示該文檔。這種知識(shí)圖譜的子圖比詞匯向量擁有更豐富的表示空間,也為文檔分類、文檔摘要和關(guān)鍵詞抽取等應(yīng)用提供了更豐富的可供計(jì)算和比較的信息。
知識(shí)圖譜為計(jì)算機(jī)智能信息處理提供了巨大的知識(shí)儲(chǔ)備和支持,將讓現(xiàn)在的技術(shù)從基于字符串匹配的層次提升至知識(shí)理解層次。以上介紹的幾個(gè)應(yīng)用可以說(shuō)只能窺豹一斑。知識(shí)圖譜的構(gòu)建與應(yīng)用是一個(gè)龐大的系統(tǒng)工程,其所蘊(yùn)藏的潛力和可能的應(yīng)用,將伴隨著相關(guān)技術(shù)的日漸成熟而不斷涌現(xiàn)。
4 知識(shí)圖譜的主要技術(shù)
大規(guī)模知識(shí)圖譜的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持,以下簡(jiǎn)單介紹其中若干主要技術(shù)。
4.1 實(shí)體鏈指(Entity Linking)
互聯(lián)網(wǎng)網(wǎng)頁(yè),如新聞、博客等內(nèi)容里涉及大量實(shí)體。大部分網(wǎng)頁(yè)本身并沒(méi)有關(guān)于這些實(shí)體的相關(guān)說(shuō)明和背景介紹。為了幫助人們更好地了解網(wǎng)頁(yè)內(nèi)容,很多網(wǎng)站或作者會(huì)把網(wǎng)頁(yè)中出現(xiàn)的實(shí)體鏈接到相應(yīng)的知識(shí)庫(kù)詞條上,為讀者提供更詳盡的背景材料。這種做法實(shí)際上將互聯(lián)網(wǎng)網(wǎng)頁(yè)與實(shí)體之間建立了鏈接關(guān)系,因此被稱為實(shí)體鏈指。
手工建立實(shí)體鏈接關(guān)系非常費(fèi)力,因此如何讓計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)實(shí)體鏈指,成為知識(shí)圖譜得到大規(guī)模應(yīng)用的重要技術(shù)前提。例如,谷歌等在搜索引擎結(jié)果頁(yè)面呈現(xiàn)知識(shí)圖譜時(shí),需要該技術(shù)自動(dòng)識(shí)別用戶輸入查詢?cè)~中的實(shí)體并鏈接到知識(shí)圖譜的相應(yīng)節(jié)點(diǎn)上。
實(shí)體鏈指的主要任務(wù)有兩個(gè),實(shí)體識(shí)別(Entity Recognition)與實(shí)體消歧(Entity Disambiguation),都是自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題。
實(shí)體識(shí)別旨在從文本中發(fā)現(xiàn)命名實(shí)體,最典型的包括人名、地名、機(jī)構(gòu)名等三類實(shí)體。近年來(lái),人們開(kāi)始嘗試識(shí)別更豐富的實(shí)體類型,如電影名、產(chǎn)品名,等等。此外,由于知識(shí)圖譜不僅涉及實(shí)體,還有大量概念(concept),因此也有研究者提出對(duì)這些概念進(jìn)行識(shí)別。
不同環(huán)境下的同一個(gè)實(shí)體名稱可能會(huì)對(duì)應(yīng)不同實(shí)體,例如“蘋(píng)果”可能指某種水果,某個(gè)著名IT公司,也可能是一部電影。這種一詞多義或者歧義問(wèn)題普遍存在于自然語(yǔ)言中。將文檔中出現(xiàn)的名字鏈接到特定實(shí)體上,就是一個(gè)消歧的過(guò)程。消歧的基本思想是充分利用名字出現(xiàn)的上下文,分析不同實(shí)體可能出現(xiàn)在該處的概率。例如某個(gè)文檔如果出現(xiàn)了iphone,那么”蘋(píng)果“就有更高的概率指向知識(shí)圖譜中的叫”蘋(píng)果“的IT公司。
實(shí)體鏈指并不局限于文本與實(shí)體之間,如下圖所示,還可以包括圖像、社交媒體等數(shù)據(jù)與實(shí)體之間的關(guān)聯(lián)。可以看到,實(shí)體鏈指是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)核心技術(shù)。


圖4-1 實(shí)體鏈指實(shí)現(xiàn)實(shí)體與文本、圖像、社交媒體等數(shù)據(jù)的關(guān)聯(lián)
4.2 關(guān)系抽取(Relation Extraction)
構(gòu)建知識(shí)圖譜的重要來(lái)源之一是從互聯(lián)網(wǎng)網(wǎng)頁(yè)文本中抽取實(shí)體關(guān)系。關(guān)系抽取是一種典型的信息抽取任務(wù)。
典型的開(kāi)放信息抽取方法采用自舉(bootstrapping)的思想,按照“模板生成實(shí)例抽取”的流程不斷迭代直至收斂。例如,最初可以通過(guò)“X是Y的首都”模板抽取出(中國(guó),首都,北京)、(美國(guó),首都,華盛頓)等三元組實(shí)例;然后根據(jù)這些三元組中的實(shí)體對(duì)“中國(guó)-北京”和“美國(guó)-華盛頓”可以發(fā)現(xiàn)更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;進(jìn)而用新發(fā)現(xiàn)的模板抽取更多新的三元組實(shí)例,通過(guò)反復(fù)迭代不斷抽取新的實(shí)例與模板。這種方法直觀有效,但也面臨很多挑戰(zhàn)性問(wèn)題,如在擴(kuò)展過(guò)程中很容易引入噪音實(shí)例與模板,出現(xiàn)語(yǔ)義漂移現(xiàn)象,降低抽取準(zhǔn)確率。研究者針對(duì)這一問(wèn)題提出了很多解決方案:提出同時(shí)擴(kuò)展多個(gè)互斥類別的知識(shí),例如同時(shí)擴(kuò)展人物、地點(diǎn)和機(jī)構(gòu),要求一個(gè)實(shí)體只能屬于一個(gè)類別;也有研究提出引入負(fù)實(shí)例來(lái)限制語(yǔ)義漂移。
我們還可以通過(guò)識(shí)別表達(dá)語(yǔ)義關(guān)系的短語(yǔ)來(lái)抽取實(shí)體間關(guān)系。例如,我們通過(guò)句法分析,可以從文本中發(fā)現(xiàn)“華為”與“深圳”的如下關(guān)系:(華為,總部位于,深圳)、(華為,總部設(shè)置于,深圳)、以及(華為,將其總部建于,深圳)。通過(guò)這種方法抽取出的實(shí)體間關(guān)系非常豐富而自由,一般是一個(gè)以動(dòng)詞為核心的短語(yǔ)。該方法的優(yōu)點(diǎn)是,我們無(wú)需預(yù)先人工定義關(guān)系的種類,但這種自由度帶來(lái)的代價(jià)是,關(guān)系語(yǔ)義沒(méi)有歸一化,同一種關(guān)系可能會(huì)有多種不同的表示。例如,上述發(fā)現(xiàn)的“總部位于”、“總部設(shè)置于”以及“將其總部建于”等三個(gè)關(guān)系實(shí)際上是同一種關(guān)系。如何對(duì)這些自動(dòng)發(fā)現(xiàn)的關(guān)系進(jìn)行聚類規(guī)約是一個(gè)挑戰(zhàn)性問(wèn)題。
我們還可以將所有關(guān)系看做分類標(biāo)簽,把關(guān)系抽取轉(zhuǎn)換為對(duì)實(shí)體對(duì)的關(guān)系分類問(wèn)題。這種關(guān)系抽取方案的主要挑戰(zhàn)在于缺乏標(biāo)注語(yǔ)料。2009年斯坦福大學(xué)研究者提出遠(yuǎn)程監(jiān)督(Distant Supervision)思想,使用知識(shí)圖譜中已有的三元組實(shí)例啟發(fā)式地標(biāo)注訓(xùn)練語(yǔ)料。遠(yuǎn)程監(jiān)督思想的假設(shè)是,每個(gè)同時(shí)包含兩個(gè)實(shí)體的句子,都表述了這兩個(gè)實(shí)體在知識(shí)庫(kù)中的對(duì)應(yīng)關(guān)系。例如,根據(jù)知識(shí)圖譜中的三元組實(shí)例(蘋(píng)果,創(chuàng)始人,喬布斯)和(蘋(píng)果,CEO,庫(kù)克),我們可以將以下四個(gè)包含對(duì)應(yīng)實(shí)體對(duì)的句子分別標(biāo)注為包含“創(chuàng)始人”和“CEO”關(guān)系:
樣例句子關(guān)系/分類標(biāo)簽
蘋(píng)果-喬布斯蘋(píng)果公司的創(chuàng)始人是喬布斯。創(chuàng)始人
蘋(píng)果-喬布斯喬布斯創(chuàng)立了蘋(píng)果公司。創(chuàng)始人
蘋(píng)果-庫(kù)克蘋(píng)果公司的CEO是庫(kù)克。CEO
蘋(píng)果-庫(kù)克庫(kù)克現(xiàn)在是蘋(píng)果公司的CEO。CEO
我們將知識(shí)圖譜三元組中每個(gè)實(shí)體對(duì)看做待分類樣例,將知識(shí)圖譜中實(shí)體對(duì)關(guān)系看做分類標(biāo)簽。通過(guò)從出現(xiàn)該實(shí)體對(duì)的所有句子中抽取特征,我們可以利用機(jī)器學(xué)習(xí)分類模型(如最大熵分類器、SVM等)構(gòu)建信息抽取系統(tǒng)。對(duì)于任何新的實(shí)體對(duì),根據(jù)所出現(xiàn)該實(shí)體對(duì)的句子中抽取的特征,我們就可以利用該信息抽取系統(tǒng)自動(dòng)判斷其關(guān)系。遠(yuǎn)程監(jiān)督能夠根據(jù)知識(shí)圖譜自動(dòng)構(gòu)建大規(guī)模標(biāo)注語(yǔ)料庫(kù),因此取得了矚目的信息抽取效果。
與自舉思想面臨的挑戰(zhàn)類似,遠(yuǎn)程監(jiān)督方法會(huì)引入大量噪音訓(xùn)練樣例,嚴(yán)重?fù)p害模型準(zhǔn)確率。例如,對(duì)于(蘋(píng)果,創(chuàng)始人,喬布斯)我們可以從文本中匹配以下四個(gè)句子:
句子關(guān)系/分類標(biāo)簽是否正確
蘋(píng)果公司的創(chuàng)始人是喬布斯。創(chuàng)始人正確
喬布斯創(chuàng)立了蘋(píng)果公司。創(chuàng)始人正確
喬布斯回到了蘋(píng)果公司。創(chuàng)始人錯(cuò)誤
喬布斯曾擔(dān)任蘋(píng)果的CEO。創(chuàng)始人錯(cuò)誤
在這四個(gè)句子中,前兩個(gè)句子的確表明蘋(píng)果與喬布斯之間的創(chuàng)始人關(guān)系;但是,后兩個(gè)句子則并沒(méi)有表達(dá)這樣的關(guān)系。很明顯,由于遠(yuǎn)程監(jiān)督只能機(jī)械地匹配出現(xiàn)實(shí)體對(duì)的句子,因此會(huì)大量引入錯(cuò)誤訓(xùn)練樣例。為了解決這個(gè)問(wèn)題,人們提出很多去除噪音實(shí)例的辦法,來(lái)提升遠(yuǎn)程監(jiān)督性能。例如,研究發(fā)現(xiàn),一個(gè)正確訓(xùn)練實(shí)例往往位于語(yǔ)義一致的區(qū)域,也就是其周邊的實(shí)例應(yīng)當(dāng)擁有相同的關(guān)系;也有研究提出利用因子圖、矩陣分解等方法,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,有效實(shí)現(xiàn)降低噪音的目標(biāo)。
關(guān)系抽取是知識(shí)圖譜構(gòu)建的核心技術(shù),它決定了知識(shí)圖譜中知識(shí)的規(guī)模和質(zhì)量。關(guān)系抽取是知識(shí)圖譜研究的熱點(diǎn)問(wèn)題,還有很多挑戰(zhàn)性問(wèn)題需要解決,包括提升從高噪音的互聯(lián)網(wǎng)數(shù)據(jù)中抽取關(guān)系的魯棒性,擴(kuò)大抽取關(guān)系的類型與抽取知識(shí)的覆蓋面,等等。
4.3 知識(shí)推理(Knowledge Reasoning)
推理能力是人類智能的重要特征,能夠從已有知識(shí)中發(fā)現(xiàn)隱含知識(shí)。推理往往需要相關(guān)規(guī)則的支持,例如從“配偶”+“男性”推理出“丈夫”,從“妻子的父親”推理出“岳父”,從出生日期和當(dāng)前時(shí)間推理出年齡,等等。
這些規(guī)則可以通過(guò)人們手動(dòng)總結(jié)構(gòu)建,但往往費(fèi)時(shí)費(fèi)力,人們也很難窮舉復(fù)雜關(guān)系圖譜中的所有推理規(guī)則。因此,很多人研究如何自動(dòng)挖掘相關(guān)推理規(guī)則或模式。目前主要依賴關(guān)系之間的同現(xiàn)情況,利用關(guān)聯(lián)挖掘技術(shù)來(lái)自動(dòng)發(fā)現(xiàn)推理規(guī)則。
實(shí)體關(guān)系之間存在豐富的同現(xiàn)信息。如下圖,在康熙、雍正和乾隆三個(gè)人物之間,我們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖父,乾隆)三個(gè)實(shí)例。根據(jù)大量類似的實(shí)體X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實(shí)例,我們可以統(tǒng)計(jì)出“父親+父親=>祖父”的推理規(guī)則。類似的,我們還可以根據(jù)大量(X,首都,Y)和(X,位于,Y)實(shí)例統(tǒng)計(jì)出“首都=>位于”的推理規(guī)則,根據(jù)大量(X,總統(tǒng),美國(guó))和(X,是,美國(guó)人)統(tǒng)計(jì)出“美國(guó)總統(tǒng)=>是美國(guó)人”的推理規(guī)則。
圖4-2 知識(shí)推理舉例
知識(shí)推理可以用于發(fā)現(xiàn)實(shí)體間新的關(guān)系。例如,根據(jù)“父親+父親=>祖父”的推理規(guī)則,如果兩實(shí)體間存在“父親+父親”的關(guān)系路徑,我們就可以推理它們之間存在“祖父”的關(guān)系。利用推理規(guī)則實(shí)現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm (Lao & Cohen 2010),該方法將每種不同的關(guān)系路徑作為一維特征,通過(guò)在知識(shí)圖譜中統(tǒng)計(jì)大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量,建立關(guān)系分類器進(jìn)行關(guān)系抽取,取得不錯(cuò)的抽取效果,成為近年來(lái)的關(guān)系抽取的代表方法之一。但這種基于關(guān)系的同現(xiàn)統(tǒng)計(jì)的方法,面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。
在知識(shí)推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進(jìn)行知識(shí)推理研究。目前來(lái)看,這方面研究仍處于百家爭(zhēng)鳴階段,大家在推理表示等諸多方面仍為達(dá)成共識(shí),未來(lái)路徑有待進(jìn)一步探索。
4.4 知識(shí)表示(Knowledge Representation)
在計(jì)算機(jī)中如何對(duì)知識(shí)圖譜進(jìn)行表示與存儲(chǔ),是知識(shí)圖譜構(gòu)建與應(yīng)用的重要課題。
如“知識(shí)圖譜”字面所表示的含義,人們往往將知識(shí)圖譜作為復(fù)雜網(wǎng)絡(luò)進(jìn)行存儲(chǔ),這個(gè)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)帶有實(shí)體標(biāo)簽,而每條邊帶有關(guān)系標(biāo)簽。基于這種網(wǎng)絡(luò)的表示方案,知識(shí)圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于圖算法來(lái)完成。例如,當(dāng)我們嘗試計(jì)算兩實(shí)體之間的語(yǔ)義相關(guān)度時(shí),我們可以通過(guò)它們?cè)诰W(wǎng)絡(luò)中的最短路徑長(zhǎng)度來(lái)衡量,兩個(gè)實(shí)體距離越近,則越相關(guān)。而面向“梁?jiǎn)⒊膬鹤拥钠拮印边@樣的推理查詢問(wèn)題時(shí),則可以從“梁?jiǎn)⒊惫?jié)點(diǎn)出發(fā),通過(guò)尋找特定的關(guān)系路徑“梁?jiǎn)⒊?>兒子->妻子->?”,來(lái)找到答案。
然而,這種基于網(wǎng)絡(luò)的表示方法面臨很多困難。首先,該表示方法面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,對(duì)于那些對(duì)外連接較少的實(shí)體,一些圖方法可能束手無(wú)策或效果不佳。此外,圖算法往往計(jì)算復(fù)雜度較高,無(wú)法適應(yīng)大規(guī)模知識(shí)圖譜的應(yīng)用需求。
最近,伴隨著深度學(xué)習(xí)和表示學(xué)習(xí)的革命性發(fā)展,研究者也開(kāi)始探索面向知識(shí)圖譜的表示學(xué)習(xí)方案。其基本思想是,將知識(shí)圖譜中的實(shí)體和關(guān)系的語(yǔ)義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案。其中,最簡(jiǎn)單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實(shí)體和關(guān)系的分布式向量表示,將每個(gè)三元組實(shí)例(head,relation,tail)中的關(guān)系relation看做從實(shí)體head到實(shí)體tail的翻譯,通過(guò)不斷調(diào)整h、r和t(head、relation和tail的向量),使(h + r) 盡可能與 t 相等,即 h + r = t。該優(yōu)化目標(biāo)如下圖所示。


通過(guò)TransE等模型學(xué)習(xí)得到的實(shí)體和關(guān)系向量,能夠很大程度上緩解基于網(wǎng)絡(luò)表示方案的稀疏性問(wèn)題,應(yīng)用于很多重要任務(wù)中。
首先,利用分布式向量,我們可以通過(guò)歐氏距離或余弦距離等方式,很容易地計(jì)算實(shí)體間、關(guān)系間的語(yǔ)義相關(guān)度。這將極大的改進(jìn)開(kāi)放信息抽取中實(shí)體融合和關(guān)系融合的性能。通過(guò)尋找給定實(shí)體的相似實(shí)體,還可用于查詢擴(kuò)展和查詢理解等應(yīng)用。
其次,知識(shí)表示向量可以用于關(guān)系抽取。以TransE為例,由于我們的優(yōu)化目標(biāo)是讓 h + r = t,因此,當(dāng)給定兩個(gè)實(shí)體 h 和 t 的時(shí)候,我們可以通過(guò)尋找與 t – h 最相似的 r,來(lái)尋找兩實(shí)體間的關(guān)系。(Bordes, et al. 2013)中的實(shí)驗(yàn)證明,該方法的抽取性能較高。而且我們可以發(fā)現(xiàn),該方法僅需要知識(shí)圖譜作為訓(xùn)練數(shù)據(jù),不需要外部的文本數(shù)據(jù),因此這又稱為知識(shí)圖譜補(bǔ)全(Knowledge Graph Completion),與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(cè)(Link Prediction)類似,但是要復(fù)雜得多,因?yàn)樵谥R(shí)圖譜中每個(gè)節(jié)點(diǎn)和連邊上都有標(biāo)簽(標(biāo)記實(shí)體名和關(guān)系名)。
最后,知識(shí)表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則。例如,對(duì)于大量X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實(shí)例,我們?cè)赥ransE中會(huì)學(xué)習(xí)X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標(biāo)。根據(jù)前兩個(gè)等式,我們很容易得到X+父親+父親=Z,與第三個(gè)公式相比,就能夠得到“父親+父親=>祖父”的推理規(guī)則。前面我們介紹過(guò),基于關(guān)系的同現(xiàn)統(tǒng)計(jì)學(xué)習(xí)推理規(guī)則的思想,存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。如果利用關(guān)系向量表示提供輔助,可以顯著緩解稀疏問(wèn)題。
5 前景與挑戰(zhàn)
如果未來(lái)的智能機(jī)器擁有一個(gè)大腦,知識(shí)圖譜就是這個(gè)大腦中的知識(shí)庫(kù),對(duì)于大數(shù)據(jù)智能具有重要意義,將對(duì)自然語(yǔ)言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時(shí),我們也強(qiáng)烈地感受到,知識(shí)圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景非常有限,例如搜狗知立方更多聚焦在娛樂(lè)和健康等領(lǐng)域。根據(jù)各搜索引擎公司提供的報(bào)告來(lái)看,為了保證知識(shí)圖譜的準(zhǔn)確率,仍然需要在知識(shí)圖譜構(gòu)建過(guò)程中采用較多的人工干預(yù)。
可以看到,在未來(lái)的一段時(shí)間內(nèi),知識(shí)圖譜將是大數(shù)據(jù)智能的前沿研究問(wèn)題,有很多重要的開(kāi)放性問(wèn)題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。我們認(rèn)為,未來(lái)知識(shí)圖譜研究有以下幾個(gè)重要挑戰(zhàn)。
知識(shí)類型與表示。知識(shí)圖譜主要采用(實(shí)體1,關(guān)系,實(shí)體2)三元組的形式來(lái)表示知識(shí),這種方法可以較好的表示很多事實(shí)性知識(shí)。然而,人類知識(shí)類型多樣,面對(duì)很多復(fù)雜知識(shí),三元組就束手無(wú)策了。例如,人們的購(gòu)物記錄信息,新聞事件等,包含大量實(shí)體及其之間的復(fù)雜關(guān)系,更不用說(shuō)人類大量的涉及主觀感受、主觀情感和模糊的知識(shí)了。有很多學(xué)者針對(duì)不同場(chǎng)景設(shè)計(jì)不同的知識(shí)表示方法。知識(shí)表示是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ),如何合理設(shè)計(jì)表示方案,更好地涵蓋人類不同類型的知識(shí),是知識(shí)圖譜的重要研究問(wèn)題。最近認(rèn)知領(lǐng)域關(guān)于人類知識(shí)類型的探索(Tenenbaum, et al. 2011)也許會(huì)對(duì)知識(shí)表示研究有一定啟發(fā)作用。
知識(shí)獲取。如何從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識(shí),是構(gòu)建知識(shí)圖譜的重要問(wèn)題。目前已經(jīng)提出各種知識(shí)獲取方案,并已經(jīng)成功抽取大量有用的知識(shí)。但在抽取知識(shí)的準(zhǔn)確率、覆蓋率和效率等方面,都仍不如人意,有極大的提升空間。
知識(shí)融合。來(lái)自不同數(shù)據(jù)的抽取知識(shí)可能存在大量噪音和冗余,或者使用了不同的語(yǔ)言。如何將這些知識(shí)有機(jī)融合起來(lái),建立更大規(guī)模的知識(shí)圖譜,是實(shí)現(xiàn)大數(shù)據(jù)智能的必由之路。
知識(shí)應(yīng)用。目前大規(guī)模知識(shí)圖譜的應(yīng)用場(chǎng)景和方式還比較有限,如何有效實(shí)現(xiàn)知識(shí)圖譜的應(yīng)用,利用知識(shí)圖譜實(shí)現(xiàn)深度知識(shí)推理,提高大規(guī)模知識(shí)圖譜計(jì)算效率,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場(chǎng)景,提出新的應(yīng)用算法。這既需要豐富的知識(shí)圖譜技術(shù)積累,也需要對(duì)人類需求的敏銳感知,找到合適的應(yīng)用之道。
6 內(nèi)容回顧與推薦閱讀
本章系統(tǒng)地介紹了知識(shí)圖譜的產(chǎn)生背景、數(shù)據(jù)來(lái)源、應(yīng)用場(chǎng)景和主要技術(shù)。通過(guò)本章我們主要有以下結(jié)論:
知識(shí)圖譜是下一代搜索引擎、自動(dòng)問(wèn)答等智能應(yīng)用的基礎(chǔ)設(shè)施。
互聯(lián)網(wǎng)大數(shù)據(jù)是知識(shí)圖譜的重要數(shù)據(jù)來(lái)源。
知識(shí)表示是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。
實(shí)體鏈指、關(guān)系抽取和知識(shí)推理是知識(shí)圖譜構(gòu)建與應(yīng)用的核心技術(shù)。
知識(shí)圖譜與本體(Ontology)和語(yǔ)義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的讀者可以搜索與之相關(guān)的文獻(xiàn)閱讀。知識(shí)表示(Knowledge Representation)是人工智能的重要課題,讀者可以通過(guò)人工智能專著(Russell & Norvig 2009)了解其發(fā)展歷程。在關(guān)系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)、(Nickel, et al. 2015)詳細(xì)了解相關(guān)技術(shù)。
參考文獻(xiàn)
(Bordes, et al. 2013) Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.
(Dong, et al. 2014) Dong, X., Gabrilovich, E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach to probabilistic knowledge fusion. In Proceedings of KDD.
(Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relational retrieval using a combination of path-constrained random walks. Machine learning, 81(1), 53-67.
(Nauseates, et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semantic relations between nominals. Synthesis Lectures on Human Language Technologies, 6(1), 1-119.
(Nickel, et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
(Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3rd Edition. Pearson Press. (中文譯名:人工智能——一種現(xiàn)代方法).
(Schuhmacher, et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graph document modeling. In Proceedings of the 7th ACM international conference on Web search and data mining. In Proceedings of WSDM.
(Tenenbaum, et al. 2011) Tenenbaum, J. B., Kemp, C., Griffiths, T. L., & Goodman, N. D. (2011). How to grow a mind: Statistics, structure, and abstraction. science, 331(6022), 1279-1285

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容