論文鏈接:http://nlp.csai.tsinghua.edu.cn/~xrb/publications/JCRD-16_knowledge.pdf
本文將介紹幾種知識(shí)表示學(xué)習(xí)的代表方法。首先定義幾種表示符號(hào),將知識(shí)庫(kù)表示為G=(E,R,S),其中E={e1,e2,…,e|E|}是知識(shí)庫(kù)中的實(shí)體集合,其中包含|E|種不同實(shí)體;R={r1,r2,…,r|E|}是知識(shí)庫(kù)中的關(guān)系集合,其中包含|R|種不同關(guān)系;而S?ERE則代表知識(shí)庫(kù)中的三元組集合,我們一般表示為(h,r,t),其中h和t表示頭實(shí)體和尾實(shí)體,而r表示h和t之間的關(guān)系。例如元組(史蒂夫·喬布斯,創(chuàng)始人,蘋果公司)就代表實(shí)體“史蒂夫·喬布斯”和“蘋果公司”之間存在“創(chuàng)始人”的關(guān)系。
接下來(lái)我們介紹知識(shí)表示學(xué)習(xí)的幾個(gè)代表模型,包括距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、能量模型、雙線性模型、張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型和翻譯模型等。
2.1 距離模型
結(jié)構(gòu)表示(structured embedding,SE)是較早的幾個(gè)表示方法之一,在SE中每個(gè)實(shí)體用d維的向量表示,所有試題被投影到同一個(gè)d維向量空間中。同時(shí),SE還為每個(gè)關(guān)系r定義了2個(gè)矩陣Mr,1,Mr,2∈Rdxd,用于三元組中頭實(shí)體和尾實(shí)體的投影操作。最后,SE為每個(gè)三元組(h,r,t)定義了如下?lián)p失函數(shù):
SE將頭實(shí)體向量lh和尾實(shí)體向量lt通過(guò)關(guān)系r的2個(gè)矩陣投影到r的對(duì)應(yīng)空間中,然后在該空間中計(jì)算兩投影向量的距離。這個(gè)距離反應(yīng)了2個(gè)實(shí)體在關(guān)系r下語(yǔ)義相關(guān)度,它們距離越小,說(shuō)明2個(gè)實(shí)體存在這種關(guān)系。找到讓兩實(shí)體距離最近的關(guān)系矩陣就得到它們之間的關(guān)系。
然而,SE模型有一個(gè)重要缺陷:它對(duì)頭、尾實(shí)體使用2個(gè)不同的矩陣進(jìn)行投影,協(xié)同性較差,往往無(wú)法精確刻畫兩實(shí)體與關(guān)系之間的語(yǔ)義聯(lián)系。
2.2單層神經(jīng)網(wǎng)絡(luò)模型(single layer model,SLM)
SLM嘗試采用單層神經(jīng)網(wǎng)絡(luò)的非線性操作,來(lái)減輕SE無(wú)法協(xié)同精確刻畫實(shí)體與語(yǔ)義聯(lián)系的問(wèn)題。SLM為每個(gè)三元組定義的評(píng)分函數(shù)如下:其中M為投影矩陣,u為關(guān)系r的表示向量,g()是tanh函數(shù)。
SLM僅提供了實(shí)體和關(guān)系之間比較微弱的聯(lián)系,但卻引入了更高的計(jì)算復(fù)雜度。
2.3能量模型(SME)
SME提出更復(fù)雜的操作,尋找實(shí)體和關(guān)系之間的語(yǔ)義聯(lián)系。SME定義若干投影矩陣刻畫實(shí)體與關(guān)系的內(nèi)在聯(lián)系。SME提供線性形式和雙線性形式2種評(píng)分函數(shù):2.4雙線性模型
隱變量模型(LFM)提出利用基于關(guān)系的雙線性變換,刻畫實(shí)體和關(guān)系之間的二階聯(lián)系。LFM的雙線性評(píng)分模型:
LFM取得了巨大突破:通過(guò)簡(jiǎn)單有效的方法刻畫實(shí)體和關(guān)系的語(yǔ)義聯(lián)系,協(xié)同性較好,計(jì)算復(fù)雜度低。后來(lái)DISTMULT模型還提出了LFM的簡(jiǎn)化形式:將Mr設(shè)置為對(duì)角矩陣,模型效果反而得到顯著提升。
2.5張量神經(jīng)網(wǎng)絡(luò)模型(neural tensor network,NTN)
NTM的基本思想是用雙線性張量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層,在不同緯度下將頭、尾實(shí)體向量聯(lián)系起來(lái)。基本思想如圖所示:NTN定義了如下評(píng)分模型評(píng)價(jià)兩個(gè)實(shí)體之間存在關(guān)系r的可能性:
NTN引入了張量操作,雖然能夠精確刻畫實(shí)體和關(guān)系的復(fù)雜語(yǔ)義聯(lián)系,但是計(jì)算復(fù)雜度非常高,需要大量三元組樣例才能得到充分學(xué)習(xí)。實(shí)驗(yàn)表面,NTN在大規(guī)模稀疏只是圖譜上的效果較差。
2.6矩陣分解模型
矩陣分解是得到低維向量表示的重要途徑。采用矩陣分解進(jìn)行知識(shí)表示學(xué)習(xí)的代表方法是RESACL模型。
在該模型中知識(shí)庫(kù)三元組構(gòu)成一個(gè)大的張量X,如果三元組(h,r,t)存在,則Xhrt盡量地接近于lhMrlt。
RESACL的基本思想與LFM類似。但是RESACL會(huì)優(yōu)化張量中的所有位置,包括值為0的位置,而LFM只優(yōu)化知識(shí)庫(kù)中存在的三元組。
2.7翻譯模型
在word2vec詞表示模型提出時(shí)Mikolov等人發(fā)現(xiàn)詞向量空間存在平移不變的現(xiàn)象。例如:C(king)-C(queen)≈C(man)-C(woman)
這里C代表詞向量。也就是說(shuō)king與queen直接的隱含語(yǔ)義關(guān)系同man與woman間的隱含語(yǔ)義關(guān)系相似。
受到這種現(xiàn)象啟發(fā)Bordes等人提出了TransE模型,將知識(shí)庫(kù)中的關(guān)系看作實(shí)體間的某種平移向量。對(duì)于每個(gè)三元組(h,r,t),TransE希望lh+lr≈lt
TransE模型定義了如下?lián)p失函數(shù):
與以往模型相比TransE模型參數(shù)較少,計(jì)算復(fù)雜度低,能夠直接建立實(shí)體和關(guān)系之間的復(fù)雜語(yǔ)義聯(lián)系,性能較以往模型有顯著提升。特別是在大規(guī)模稀疏知識(shí)圖譜上性能尤為驚人。
2.8其它模型
在TransE提出后大部分知識(shí)表示學(xué)習(xí)模型是以TransE為基礎(chǔ)的擴(kuò)展。這里主要介紹全息表示模型(Hole)。
Hole提出使用頭、尾實(shí)體向量的“循環(huán)相關(guān)”操作來(lái)表示該實(shí)體對(duì)。循環(huán)相關(guān)可以看作張量乘法的特殊形式,具有強(qiáng)表達(dá)能力,主要有以下3個(gè)優(yōu)點(diǎn):
1)不可交換性
2)相關(guān)性
3)計(jì)算效率高
本篇介紹了幾種知識(shí)表示的主要方法,其中TransE模型及其擴(kuò)展為目前知識(shí)表示模型的主要研究方向,后面也將以TransE為例介紹知識(shí)表示學(xué)習(xí)的主要挑戰(zhàn)與解決方案。