Neil Zhu,簡書ID Not_GOD,University AI 創始人 & Chief Scientist,致力于推進世界人工智能化進程。制定并實施 UAI 中長期增長戰略和目標,帶領團隊快速成長為人工智能領域最專業的力量。
作為行業領導者,他和UAI一起在2014年創建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網絡),AI growth(行業智庫培訓)等,為中國的人工智能人才建設輸送了大量的血液和養分。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動,產生了巨大的影響力,書寫了60萬字的人工智能精品技術內容,生產翻譯了全球第一本深度學習入門書《神經網絡與深度學習》,生產的內容被大量的專業垂直公眾號和媒體轉載與連載。曾經受邀為國內頂尖大學制定人工智能學習規劃和教授人工智能前沿課程,均受學生和老師好評。
Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, and Alex Graves from Google DeepMind
摘要
本文介紹一種新的不需增加網絡參數個數來為遞歸神經網絡增加額外內存的方法。該系統有一個基于復數值向量的關聯內存,并和 Holographic Reduced Representation 和 LSTM 網絡緊密相關。全息化歸表示有受限的能力:在他們存儲更多的信息時,每次檢索由于干涉產生噪聲。我們的系統創建出冗余的存儲副本,這樣可以減少檢索的噪聲。實驗結果表明在多回憶任務上有更快的學習速度。
1. 引言
該項工作致力于增強 LSTM (Hochreiter & Schmidhuber, 1997),這已經成為了在序列預測、語音識別和機器翻譯中廣泛應用的技術。(Graves, 2013; Graves et al., 2013; Sutskever et al., 2014) 我們這里解決了 LSTM 的兩個限制。第一個限制是 LSTM 的內存單元數目和遞歸權重矩陣的大小相關。擁有 N_h 內存單元的 LSTM 需要遞歸權重矩陣大小為 O(N_h^2)。第二個限制是 LSTM 其實學習表示如矩陣這樣的數據結構的不太好的選擇,因為 LSTM 本身缺少一種機制在讀寫時進行內存的索引。
為了解決這個限制,遞歸神經網絡現在已經有了軟/硬注意力機制來訪問外部存儲空間(Graves et al., 2014; Sukhbaatar et al., 2015; Joulin & Mikolov, 2015; Grefenstette et al., 2015; Zaremba & Sutskever, 2015) 的增強。注意力機制類似于一種尋址系統,可以選擇存儲空間的位置。被選擇的內存地址指向的內容可以通過網絡進行讀/改操作。
這里,我們在 關聯 LSTM 中給出了一種不同的尋址機制,其中如 LSTM 中那樣,項以一種分布式向量表示的方式進行無位置存儲。我們的系統基于兩個特性來實現存放鍵值對的 關聯數組:
- 將 LSTM 和全息化歸表示思想合并來使能鍵值對存儲。
- 直接應用 HRR 的想法產生一個非常lossy的存儲。我們使用冗余存儲來增加內存的能力從而降低內存訪問的噪聲。
HRR 使用一種“綁定”算子來實現兩個向量(鍵和相應的內容)之間的鍵值關聯。他們天生就能夠實現一個關聯數組;同樣也能夠輕松地實現棧、隊列或者列表。因為 HRR 可能對大多數的讀者不太熟悉,第二節我們會給出一個關于 HRR 和相關的向量-符號架構 (Kanerva, 2009) 的簡短的介紹。
在計算科學中,RAID技術提供了一種從不可靠部件構建可靠存儲的方式。我們通過冗余存儲技術來簡單地降低一個全息表示內部的檢索誤差,這個在第三節進行介紹。接著在第五節將冗余關聯內存和 LSTM 進行關聯。系統可以通過這樣方式增加到更大的內存空間而不需要增加更多的網絡參數。在第六節的實驗展示了這種內存系統在學習速度和準確率上的好處。
2. 背景
全息化歸表示是一種用固定長度的向量來表示鍵值對的關聯數組的簡單機制。每個獨立的鍵值對和整個關聯數組的大小相同;數組通過所有對的和進行表示。具體說,假設有一個復數向量鍵 $$r = (a_r[1])$$