閱讀筆記:知識(shí)表示學(xué)習(xí)研究進(jìn)展——知識(shí)表示學(xué)習(xí)的主要方法

論文作者

論文鏈接:http://nlp.csai.tsinghua.edu.cn/~xrb/publications/JCRD-16_knowledge.pdf

本文將介紹幾種知識(shí)表示學(xué)習(xí)的代表方法。首先定義幾種表示符號(hào),將知識(shí)庫(kù)表示為G=(E,R,S),其中E={e1,e2,…,e|E|}是知識(shí)庫(kù)中的實(shí)體集合,其中包含|E|種不同實(shí)體;R={r1,r2,…,r|E|}是知識(shí)庫(kù)中的關(guān)系集合,其中包含|R|種不同關(guān)系;而S?ERE則代表知識(shí)庫(kù)中的三元組集合,我們一般表示為(h,r,t),其中h和t表示頭實(shí)體和尾實(shí)體,而r表示h和t之間的關(guān)系。例如元組(史蒂夫·喬布斯,創(chuàng)始人,蘋果公司)就代表實(shí)體“史蒂夫·喬布斯”和“蘋果公司”之間存在“創(chuàng)始人”的關(guān)系。

接下來(lái)我們介紹知識(shí)表示學(xué)習(xí)的幾個(gè)代表模型,包括距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、能量模型、雙線性模型、張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型和翻譯模型等。

2.1 距離模型

結(jié)構(gòu)表示(structured embedding,SE)是較早的幾個(gè)表示方法之一,在SE中每個(gè)實(shí)體用d維的向量表示,所有試題被投影到同一個(gè)d維向量空間中。同時(shí),SE還為每個(gè)關(guān)系r定義了2個(gè)矩陣Mr,1,Mr,2∈Rdxd,用于三元組中頭實(shí)體和尾實(shí)體的投影操作。最后,SE為每個(gè)三元組(h,r,t)定義了如下?lián)p失函數(shù):

損失函數(shù)

SE將頭實(shí)體向量lh和尾實(shí)體向量lt通過(guò)關(guān)系r的2個(gè)矩陣投影到r的對(duì)應(yīng)空間中,然后在該空間中計(jì)算兩投影向量的距離。這個(gè)距離反應(yīng)了2個(gè)實(shí)體在關(guān)系r下語(yǔ)義相關(guān)度,它們距離越小,說(shuō)明2個(gè)實(shí)體存在這種關(guān)系。找到讓兩實(shí)體距離最近的關(guān)系矩陣就得到它們之間的關(guān)系。
然而,SE模型有一個(gè)重要缺陷:它對(duì)頭、尾實(shí)體使用2個(gè)不同的矩陣進(jìn)行投影,協(xié)同性較差,往往無(wú)法精確刻畫兩實(shí)體與關(guān)系之間的語(yǔ)義聯(lián)系。

2.2單層神經(jīng)網(wǎng)絡(luò)模型(single layer model,SLM)

SLM嘗試采用單層神經(jīng)網(wǎng)絡(luò)的非線性操作,來(lái)減輕SE無(wú)法協(xié)同精確刻畫實(shí)體與語(yǔ)義聯(lián)系的問(wèn)題。SLM為每個(gè)三元組定義的評(píng)分函數(shù)如下:
SLM評(píng)分函數(shù)

其中M為投影矩陣,u為關(guān)系r的表示向量,g()是tanh函數(shù)。
SLM僅提供了實(shí)體和關(guān)系之間比較微弱的聯(lián)系,但卻引入了更高的計(jì)算復(fù)雜度。

2.3能量模型(SME)

SME提出更復(fù)雜的操作,尋找實(shí)體和關(guān)系之間的語(yǔ)義聯(lián)系。SME定義若干投影矩陣刻畫實(shí)體與關(guān)系的內(nèi)在聯(lián)系。SME提供線性形式和雙線性形式2種評(píng)分函數(shù):
線性形式
雙線性形式
2.4雙線性模型

隱變量模型(LFM)提出利用基于關(guān)系的雙線性變換,刻畫實(shí)體和關(guān)系之間的二階聯(lián)系。LFM的雙線性評(píng)分模型:

LFM雙線性評(píng)分模型

LFM取得了巨大突破:通過(guò)簡(jiǎn)單有效的方法刻畫實(shí)體和關(guān)系的語(yǔ)義聯(lián)系,協(xié)同性較好,計(jì)算復(fù)雜度低。后來(lái)DISTMULT模型還提出了LFM的簡(jiǎn)化形式:將Mr設(shè)置為對(duì)角矩陣,模型效果反而得到顯著提升。

2.5張量神經(jīng)網(wǎng)絡(luò)模型(neural tensor network,NTN)

NTM的基本思想是用雙線性張量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層,在不同緯度下將頭、尾實(shí)體向量聯(lián)系起來(lái)。基本思想如圖所示:

NTN定義了如下評(píng)分模型評(píng)價(jià)兩個(gè)實(shí)體之間存在關(guān)系r的可能性:
NTN評(píng)分模型

NTN引入了張量操作,雖然能夠精確刻畫實(shí)體和關(guān)系的復(fù)雜語(yǔ)義聯(lián)系,但是計(jì)算復(fù)雜度非常高,需要大量三元組樣例才能得到充分學(xué)習(xí)。實(shí)驗(yàn)表面,NTN在大規(guī)模稀疏只是圖譜上的效果較差。
2.6矩陣分解模型

矩陣分解是得到低維向量表示的重要途徑。采用矩陣分解進(jìn)行知識(shí)表示學(xué)習(xí)的代表方法是RESACL模型。
在該模型中知識(shí)庫(kù)三元組構(gòu)成一個(gè)大的張量X,如果三元組(h,r,t)存在,則Xhrt盡量地接近于lhMrlt
RESACL的基本思想與LFM類似。但是RESACL會(huì)優(yōu)化張量中的所有位置,包括值為0的位置,而LFM只優(yōu)化知識(shí)庫(kù)中存在的三元組。

2.7翻譯模型

在word2vec詞表示模型提出時(shí)Mikolov等人發(fā)現(xiàn)詞向量空間存在平移不變的現(xiàn)象。例如:C(king)-C(queen)≈C(man)-C(woman)
這里C代表詞向量。也就是說(shuō)king與queen直接的隱含語(yǔ)義關(guān)系同man與woman間的隱含語(yǔ)義關(guān)系相似。
受到這種現(xiàn)象啟發(fā)Bordes等人提出了TransE模型,將知識(shí)庫(kù)中的關(guān)系看作實(shí)體間的某種平移向量。對(duì)于每個(gè)三元組(h,r,t),TransE希望lh+lr≈lt
TransE模型定義了如下?lián)p失函數(shù):

TransE損失函數(shù)

TransE模型

與以往模型相比TransE模型參數(shù)較少,計(jì)算復(fù)雜度低,能夠直接建立實(shí)體和關(guān)系之間的復(fù)雜語(yǔ)義聯(lián)系,性能較以往模型有顯著提升。特別是在大規(guī)模稀疏知識(shí)圖譜上性能尤為驚人。

2.8其它模型

在TransE提出后大部分知識(shí)表示學(xué)習(xí)模型是以TransE為基礎(chǔ)的擴(kuò)展。這里主要介紹全息表示模型(Hole)。
Hole提出使用頭、尾實(shí)體向量的“循環(huán)相關(guān)”操作來(lái)表示該實(shí)體對(duì)。循環(huán)相關(guān)可以看作張量乘法的特殊形式,具有強(qiáng)表達(dá)能力,主要有以下3個(gè)優(yōu)點(diǎn):
1)不可交換性
2)相關(guān)性
3)計(jì)算效率高

Hole定義了如下評(píng)分函數(shù):
Hole評(píng)分函數(shù)

本篇介紹了幾種知識(shí)表示的主要方法,其中TransE模型及其擴(kuò)展為目前知識(shí)表示模型的主要研究方向,后面也將以TransE為例介紹知識(shí)表示學(xué)習(xí)的主要挑戰(zhàn)與解決方案。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,117評(píng)論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,860評(píng)論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 177,128評(píng)論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 63,291評(píng)論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,025評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 55,421評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,477評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 42,642評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,177評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,970評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,157評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,717評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,410評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 34,821評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 36,053評(píng)論 1 289
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,896評(píng)論 3 395
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,157評(píng)論 2 375

推薦閱讀更多精彩內(nèi)容

  • 數(shù)學(xué)是計(jì)算機(jī)技術(shù)的基礎(chǔ),線性代數(shù)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的基礎(chǔ),了解數(shù)據(jù)知識(shí)最好的方法我覺(jué)得是理解概念,數(shù)學(xué)不只是上學(xué)...
    闖王來(lái)了要納糧閱讀 22,770評(píng)論 2 48
  • 星期天的下午兩點(diǎn)鐘,我自己一個(gè)人在家里看電視, 忽然聽(tīng)到敲門聲。 于是,我躡手躡腳的走進(jìn)門,聽(tīng)到了動(dòng)靜。 我使勁的...
    王子月66閱讀 167評(píng)論 0 1
  • 可能原因:黑色素沉積 1. 飲食: /需優(yōu)質(zhì)蛋白質(zhì),脂肪酸-- 清潔飲食--粗糧,堅(jiān)果,種子和橄欖油等; 高纖維食...
    水仙與惡魔Slog閱讀 318評(píng)論 0 0
  • 一月,我翹首盼望著二月假期的來(lái)臨,眨眼間時(shí)光停在了二月的尾巴上,二月仿若被歲月過(guò)濾,壓縮了一般,變得異常短暫。 歡...
    安靜的鹿閱讀 268評(píng)論 4 4
  • 說(shuō)好的,期末考完來(lái)說(shuō)說(shuō)心里一直掛念的那個(gè)人。 認(rèn)識(shí)他應(yīng)該是在初中,他不是那種一眼看上去就很帥的男生,是給人清清爽...
    清劭qs閱讀 235評(píng)論 0 0