https://mp.weixin.qq.com/s/rzFtpI28XbyxONh5X0Pvaw
Relational inductive biases, deep learning, and graph networks
40頁pdf
Relational?inductive?biases,?deep?learning, and?graph?networks
Authors:?Peter W. Battaglia,?Jessica B. Hamrick,?Victor Bapst,?Alvaro Sanchez-Gonzalez,?Vinicius Zambaldi,?Mateusz Malinowski,?Andrea Tacchetti,?David Raposo,?Adam Santoro,?Ryan Faulkner,?Caglar Gulcehre,?Francis Song,?Andrew Ballard,?Justin Gilmer,?George Dahl,?Ashish Vaswani,?Kelsey Allen,?Charles Nash,?Victoria Langston,?Chris Dyer,?Nicolas Heess,?Daan Wierstra,?Pushmeet Kohli,?Matt Botvinick,?Oriol Vinyals?, et al. (2 additional authors not shown)
Submitted?17 October, 2018;?v1?submitted 4 June, 2018;?originally announced?June 2018.
摘要:人工智能(AI)最近經歷了一次復興,在視覺、語言、控制和決策等關鍵領域取得了重大進展。這在一定程度上是因為廉價的數據和廉價的計算資源符合深度學習的自然優勢。然而,在不同的壓力下發展起來的人類智力的許多決定性特征,仍然是當前方法無法達到的。特別是,對現代人工智能來說,超越個人經驗的概括(這是人類從嬰兒期起的智能特征)仍然是一項艱巨的挑戰。
以下是部分立場文件、部分回顧和部分統一。我們認為,組合泛化必須是人工智能實現類人能力的首要任務,結構化表示和計算是實現這一目標的關鍵。正如生物學將先天和后天培養結合起來一樣,我們拒絕在“手工工程”和“端到端”學習之間做出錯誤的選擇,相反,我們提倡一種受益于它們互補優勢的方法。我們探討了在深度學習架構中使用關系歸納偏置如何促進對實體、關系和組合規則的學習。我們為AI工具包提供了一個新的構建塊,它具有強大的關系歸納偏置——圖網絡——它概括和擴展了各種用于對圖形進行操作的神經網絡的方法,并為操作結構化知識和生成結構化行為提供了一個直觀的界面。我們討論了圖網絡如何支持關系推理和組合泛化,為更復雜、可解釋和靈活的推理模式奠定基礎。作為本文的補充,我們發布了一個用于構建圖網絡的開源軟件庫,并演示了如何在實踐中使用它們。
1導言
人類智力的一個關鍵特征是“無限利用有限手段”(洪堡,1836年;喬姆斯基,1965年)的能力,在這種能力中,一小部分元素(如單詞)可以以無限的方式(如新句子)有效地組合。這反映了組合泛化的原理,即從已知的構建塊構造新的推理、預測和行為。在這里,我們探討了如何通過將學習偏向于結構化表示和計算,特別是在圖形上操作的系統,來提高現代人工智能的組合泛化能力。
人類的組合概括能力在很大程度上取決于我們表達結構和推理關系的認知機制。我們將復雜系統表示為實體的組成及其相互作用1(Navon,1977年;McClelland和Rumelhart,1981年;Plaut等人,1996年;Marcus,2001年;Goodwin和Johnson Laird,2005年;Kemp和Tenenbaum,2008年),例如判斷一堆雜亂無章的物體是否穩定(Battaglia等人,2013年)。我們使用層次結構從細粒度的差異中抽象出來,并捕獲表示和行為之間更一般的共性(Botvinick,2008;Tenenbaum et al.,2011),例如對象的部分、場景中的對象、城鎮中的社區和國家中的城鎮。我們通過編寫熟悉的技能和常規(Anderson,1982)來解決新問題,例如,通過編寫熟悉的程序和目標(如“乘飛機旅行”、“去圣地亞哥”、“在家吃飯”和“印度餐館”)到新地點旅行。我們通過調整兩個領域之間的關系結構,并根據對另一個領域的相應知識對其中一個領域進行推斷,從而得出類比(Gentner和Markman,1997;Hummel和Holyoak,2003)。
肯尼斯·克雷克(Kenneth Craik)的《解釋的本質》(1943年)將世界的構成結構與我們內部心理模型的組織方式聯系起來:
...[人類心理模型]與它所模仿的過程具有相似的關系結構。我所說的“關系結構”并不是指某個模糊的非物理實體參與到模型中,而是指它是一個工作的物理模型,其工作方式與它并行的過程相同。。。顯然,物理實在是由幾個基本類型的單位建立起來的,這些單位的性質決定了最復雜現象的許多性質,這似乎充分解釋了機制之間出現的類比以及這些組合之間關系結構的相似性,而無需任何客觀普遍性理論。(克雷克,1943年,第51-55頁)
也就是說,世界是由成分構成的,或者至少,我們從成分的角度來理解它。在學習時,我們要么將新知識融入現有的結構化表示,要么調整結構本身,以更好地適應(并利用)新知識和舊知識(Tenenbaum等人,2006年;Griffiths等人,2010年;Ullman等人,2017年)。如何構建具有組合泛化能力的人工系統的問題自人工智能誕生以來一直是人工智能的核心,也是許多結構化方法的核心,包括邏輯、語法、經典規劃、圖形模型、因果推理、貝葉斯非參數學、,和概率規劃(喬姆斯基,1957年;尼爾森和菲克斯,1970年;珀爾,1986年,2009年;拉塞爾和諾維格,2009年;Hjort等人,2010年;古德曼等人,2012年;Ghahramani,2015年)。整個子領域都專注于以實體和關系為中心的顯性學習,如關系強化學習(Dˇzeroski等人,2001)和統計關系學習(Getoor和Taskar,2007)。在以前的時代,結構化方法對機器學習如此重要的一個關鍵原因,部分是因為數據和計算資源非常昂貴,而結構化方法強大的歸納偏置所提供的改進的樣本復雜性非常有價值。
與人工智能的過去方法相比,現代深度學習方法(LeCun等人,2015;Schmidhuber,2015;Goodfelle等人,2016)通常遵循“端到端”的設計理念,強調最小的先驗表征和計算假設,并尋求避免顯式結構和“手工工程”。這種強調與當前豐富的廉價數據和廉價計算資源非常契合,也可能得到了肯定,這使得權衡樣本效率以獲得更靈活的學習成為一種理性選擇。從圖像分類(Krizhevsky et al.,2012;Szegedy et al.,2017),到自然語言處理(Sutskever et al.,2014;Bahdanau et al.,2015),再到游戲(Mnih et al.,2015;Silver et al.,2016;Moravˇc?k et al.,2017),在許多具有挑戰性的領域取得了顯著而迅速的進步,是對這一極簡主義原則的證明。一個突出的例子是語言平移,序列到序列的方法(Sutskever et al.,2014;Bahdanau et al.,2015)在不使用顯式解析樹或語言實體之間的復雜關系的情況下被證明非常有效。
盡管deep learning取得了成功,但重要的評論(Marcus,2001;Shalev Shwartz et al.,2017;Lake et al.,2017;Lake and Baroni,2018;Marcus,2018a,b;Pearl,2018;Yuille and Liu,2018)強調了其在復雜語言和場景理解、結構化數據推理方面面臨的關鍵挑戰,將學習轉移到訓練條件之外,并從少量經驗中學習。這些挑戰需要組合泛化,因此避免組合性和顯式結構的方法很難滿足這些挑戰,這也許并不奇怪。
當深度學習的聯結主義者(Rumelhart et al.,1987)的先輩們面臨來自結構化、象征性立場的類似批評時(Fodor和Pylyshyn,1988;Pinker和Prince,1988),他們做出了建設性的努力(Bobrow和Hinton,1990;Marcus,2001),直接而謹慎地應對這些挑戰。在類比、語言分析、符號操作和其他形式的關系推理等領域,開發了各種用于表示和推理結構化對象的創新亞符號方法(Smolensky,1990;Hinton,1990;Pollack,1990;Elman,1991;Plate,1995;Eliasmith,2013),以及關于大腦如何工作的更為綜合的理論(Marcus,2001)。這些工作也有助于培養更近期的深度學習進步,即使用分布式向量表示法捕獲文本中豐富的語義內容(Mikolov等人,2013年;Pennington等人,2014年)、圖形(Narayanan等人,2016年、2017年)、代數和邏輯表達式(Allamanis等人,2017年;Evans等人,2018年),和項目(Devlin等人,2017年;Chen等人,2018b)。
我們認為,現代人工智能的一個關鍵發展方向是將組合泛化作為首要任務,我們主張采用綜合方法來實現這一目標。正如生物學不會在先天和后天之間做出選擇一樣,它將先天和后天結合起來,以建立一個大于其各部分總和的整體,我們也拒絕結構和靈活性在某種程度上不一致或不相容的概念,并接受兩者,目的是收獲它們的互補優勢。本著基于結構的方法和深度學習的原則混合的眾多最新實例的精神(例如,里德和德弗雷塔斯,2016年;加內洛等人,2016年;里奇等人,2016年;吳等人,2017年;丹尼爾等人,2017年;哈德遜和曼寧,2018年),我們看到,通過利用完整的人工智能工具包,將當今的最佳方法與數據和計算處于高價時所必需的方法結合起來,綜合新技術將大有可為。
最近,在深度學習和結構化方法的交叉點上出現了一類模型,其重點是關于顯式結構化數據的推理方法,特別是圖表(如Scarselli等人,2009年b;Bronstein等人,2017年;Gilmer等人,2017年;Wang等人,2018c;Li等人,2018年;Kipf等人,2018年;Gulcehre等人,2018年)。這些方法的共同點是對離散實體及其關系執行計算的能力。與經典方法不同的是如何學習實體和關系的表示和結構以及相應的計算,從而減輕了需要提前指定它們的負擔。至關重要的是,這些方法帶有強烈的關系歸納偏置,表現為特定的架構假設,指導這些方法學習實體和關系(Mitchell,1980),我們,與其他許多人(Spelke等人,1992年;Spelke和Kinzler,2007年;Marcus,2001年;Tenenbaum等人,2011年;Lake等人,2017年;Lake和Baroni,2018年;Marcus,2018b)一起認為,大腦是類人智能的重要組成部分。
框1:關系推理
我們將結構定義為組成一組已知構建塊的產物。“結構化表示”捕獲這種組合(即元素的排列),并且“結構化計算”操作元素及其作為一個整體的組合。因此,關系推理涉及到操縱實體和關系的結構化表示,并使用規則來確定它們的組合方式。我們使用這些術語來獲取認知科學、理論計算機科學和人工智能的概念,如下所示:
? 實體是具有屬性的元素,例如具有大小和質量的物理對象。
? 關系是實體之間的屬性。兩個對象之間的關系可能包括與大小相同、比重以及與的距離。關系也可以有屬性。大于X倍的關系使用屬性X,該屬性確定關系的相對權重閾值為真與假。關系也可能對全球環境敏感。對于一塊石頭和一根羽毛來說,它們之間的關系下降的加速度要大于背景是在空氣中還是在真空中。這里我們重點討論實體之間的成對關系。
? 規則是一個函數(類似于非二進制邏輯謂詞),它將實體和關系映射到其他實體和關系,例如比例尺比較,如實體X大嗎?實體X比實體Y重嗎?。在這里,我們考慮采用一個或兩個參數(一元和二進制)的規則,并返回一元屬性值。
作為機器學習中關系推理的一個示例,圖形模型(Pearl,1988;Koller和Friedman,2009)可以通過在隨機變量之間建立明確的隨機條件獨立來表示復雜的聯合分布。這些模型非常成功,因為它們捕捉了許多真實世界生成過程背后的稀疏結構,并且支持有效的學習和推理算法。例如,隱馬爾可夫模型將潛在狀態約束為條件獨立于前一時間步的其他狀態,并將觀測值約束為條件獨立于當前時間步的潛在狀態,這與許多現實世界因果過程的關系結構非常匹配。顯式表示變量之間的稀疏依賴關系提供了各種有效的推理和推理算法,例如消息傳遞,它在圖形模型中跨局部應用公共信息傳播過程,從而實現可組合和部分并行,推理程序,可應用于不同尺寸和形狀的圖形模型。
在本文的剩余部分中,我們通過關系歸納偏置的視角考察了各種深度學習方法,表明現有方法通常帶有關系假設,這些假設并不總是明確的或立即明顯的。然后,我們提出了一個基于實體和關系的推理的通用框架,我們稱之為圖網絡,用于統一和擴展現有的圖形方法,并描述了使用圖網絡作為構建塊構建強大架構的關鍵設計原則。我們還發布了一個用于構建圖網絡的開源庫,可以在這里找到:github。com/deepmind/graph-nets。
2相關歸納偏置
機器學習和人工智能中具有關系推理能力的許多方法(框1)使用關系歸納偏置。雖然不是一個精確、正式的定義,但我們使用該術語通常指的是歸納偏置(框2),它對學習過程中實體之間的關系和交互施加了約束。
近年來,創新性的新機器學習架構迅速發展,實踐者通常遵循一種設計模式,即組合基本構建塊,形成更復雜、更深入的計算層次結構和圖形。諸如“完全連接”層之類的構建塊被堆疊到“多層感知器”(MLP)中,“卷積層”被堆疊到“卷積神經網絡”(CNN)中,并且圖像處理網絡的標準配方通常是由MLP組成的某種CNN。這種層的組合提供了一種特定類型的關系歸納偏置,即分階段執行計算的分層處理,通常導致輸入信號中的信息之間的距離越來越遠的交互。正如我們在下面探討的,構建塊本身也帶有各種關系歸納偏置(表1)。盡管超出了本文的范圍,但深度學習中也使用了各種非相關的歸納偏置:例如,激活非線性、權重衰減、dropout(Srivastava等人,2014年)、批次和層歸一化(Ioffe和Szegedy,2015年;Ba等人,2016年)、數據增強、訓練課程、,優化算法都對學習的軌跡和結果施加約束。
框2:歸納偏置
學習是通過觀察世界和與世界互動來理解有用知識的過程。它涉及到尋找一個解決方案空間,以期為數據提供更好的解釋或獲得更高的回報。但在許多情況下,有多種同樣好的解決方案(古德曼,1955)。歸納偏置允許學習算法將一種解決方案(或解釋)優先于另一種解決方案(或解釋),與觀測數據無關(Mitchell,1980)。在貝葉斯模型中,歸納偏置通常通過先驗分布的選擇和參數化來表示(Griffiths et al.,2010)。在其他情況下,歸納偏置可能是為了避免過度擬合而添加的正則化項(McClelland,1994),也可能在算法本身的架構中進行編碼。歸納偏置通常通過提高樣本復雜度來交換靈活性,并且可以通過偏置-方差權衡來理解(Geman et al.,1992)。理想情況下,歸納偏置既可以在不顯著降低性能的情況下改進對解決方案的搜索,也可以幫助找到以理想方式概括的解決方案;然而,不匹配的歸納偏置也可能通過引入太強的約束而導致次優性能。
歸納偏置可以表示關于數據生成過程或解決方案空間的假設。例如,當將一維函數擬合到數據時,線性最小二乘法遵循近似函數為線性模型的約束,并且在二次懲罰下近似誤差應最小。這反映了一種假設,即數據生成過程可以簡單地解釋為被加性高斯噪聲破壞的線性過程。類似地,L2正則化優先考慮參數值較小的解,并且可以為其他不適定問題引入唯一解和全局結構。這可以解釋為關于學習過程的一個假設:當解決方案之間的歧義較少時,尋找好的解決方案更容易。注意,這些假設不需要明確,它們反映了對模型或算法如何與世界交互的解釋。
為了探索各種深度學習方法中表達的關系歸納偏置,我們必須確定幾個關鍵成分,類似于方框1中的成分:什么是實體,什么是關系,組成實體和關系的規則是什么,以及計算它們的含義?在深度學習中,實體和關系通常表示為分布式表示,規則表示為神經網絡函數逼近器;然而,實體、關系和規則的精確形式因架構而異。為了理解架構之間的這些差異,我們可以進一步詢問每種架構如何通過探測來支持關系推理:
? 規則函數的參數(例如,提供哪些實體和關系作為輸入)。
? 如何在計算圖中重用或共享規則函數(例如,在不同的實體和關系中,在不同的時間或處理步驟中,等等)。
? 架構如何定義表示之間的交互與隔離(例如,通過應用規則得出有關相關實體的結論,而不是單獨處理它們)。
2.1標準深度學習構建塊中的關系歸納偏置
2.1.1完全連接的層
也許最常見的構造塊是完全連接的層(Rosenblatt,1961)。通常實現為向量輸入的非線性向量值函數,輸出向量的每個元素或“單位”是權重向量(后跟附加偏置項)和最終非線性(例如校正線性單位(ReLU))之間的點積。因此,實體是網絡中的單元,關系是all to all(層i中的所有單元都連接到層j中的所有單元),規則由權重和偏置指定。該規則的參數是完整的輸入信號,沒有重用,也沒有信息隔離(圖1a)。因此,在完全連接的層中,隱含的關系歸納偏置非常弱:所有輸入單元都可以相互作用,獨立地跨輸出確定任何輸出單元的值(表1)。
2.1.2個卷積層
另一個常見的構造塊是卷積層(Fukushima,1980;LeCun等人,1989)。它通過將輸入向量或張量與相同秩的核卷積、添加偏置項以及應用逐點非線性來實現。這里的實體仍然是單獨的單位(或網格元素,例如像素),但關系更為稀疏。完全連接層和卷積層之間的差異造成了一些重要的關系歸納偏置:局部性和平移不變性(圖1b)。局部性反映了關系規則的參數是那些在輸入信號的坐標空間中彼此非常接近、與遠端實體隔離的實體。平移不變性反映了在輸入的不同位置重復使用相同的規則。這些偏置對于處理自然圖像數據非常有效,因為局部鄰域內的協方差很高,隨著距離的增加而減小,并且統計數據在整個圖像中大部分是固定的(表1)。
2.1.3個遞歸層
第三個常用構建塊是遞歸層(Elman,1990),它通過一系列步驟實現。在這里,我們可以將每個處理步驟的輸入和隱藏狀態視為實體,將一個步驟的隱藏狀態對前一個隱藏狀態和當前輸入的馬爾可夫依賴性視為關系。組合實體的規則將步驟的輸入和隱藏狀態作為參數來更新隱藏狀態。該規則在每個步驟中都被重復使用(圖1c),這反映了時間不變性的相關歸納偏置(類似于CNN在空間中的平移不變性)。例如,某些物理事件序列的結果不應取決于一天中的時間。RNN還通過其馬爾可夫結構(表1)在序列中帶有局部性偏置。
2.2集合和圖形的計算
雖然標準的深度學習工具包包含具有各種形式的關系歸納偏置的方法,但沒有在任意關系結構上操作的“默認”深度學習組件。我們需要具有實體和關系的顯式表示的模型,以及能夠找到計算它們的交互規則的學習算法,以及將它們建立在數據基礎上的方法。重要的是,世界上的實體(如對象和代理)沒有自然秩序;相反,排序可以通過其關系的屬性來定義。例如,一組對象的大小之間的關系可以潛在地用于對它們進行排序,它們的質量、年齡、毒性和價格也是如此。除了關系之外,對順序的不變性是一種屬性,理想情況下,這種屬性應該通過關系推理的深度學習組件反映出來。
集合是由順序未定義或無關的實體描述的系統的自然表示;特別是,他們的關系歸納偏置不是來自于某件事的存在,而是來自于某件事的缺失。為了說明,考慮由N行星組成的太陽系的質量中心的預測任務,其屬性(例如質量、位置、速度等)由{x1,x2,…,xn}表示。對于這樣的計算,我們考慮行星的順序并不重要,因為狀態只能用聚集的、平均的量來描述。然而,如果我們將MLP用于此任務,學習特定輸入(x1,x2,…,xn)的預測不一定會轉移到以不同順序(xn,x1,…,x2)對相同輸入進行預測。因為有n!這種可能的排列,在最壞的情況下,MLP可以考慮每個排序是根本不同的,因此需要指數數量的輸入/輸出訓練實例來學習近似函數。處理這種組合爆炸的自然方法是只允許預測依賴于輸入屬性的對稱函數。這可能意味著計算每個對象共享的特征{f(x1),…,f(xn)},然后以對稱方式聚合這些特征(例如,通過取它們的平均值)。這種方法是深集和相關模型的精髓(Zaheer等人,2017年;Edwards和Storkey,2016年;Pevn`y和Somol,2017年),我們將在第4.2節中進一步探討。3.
當然,在許多問題中,排列不變性并不是底層結構的唯一重要形式。例如,集合中的每個對象都可能受到與集合中其他對象成對交互的影響(Hartford等人,2018)。在我們的行星場景中,現在考慮在一個時間間隔之后預測每個行星的位置的任務,?t、 在這種情況下,使用聚合平均信息是不夠的,因為每個行星的運動取決于其他行星對其施加的力。相反,我們可以將每個物體的狀態計算為x0i=f(xi,Pj g(xi,xj)),其中g可以計算第i顆行星上第j顆行星產生的力,f可以計算第i顆行星的未來狀態,該狀態由力和動力學產生。事實上,我們在任何地方都使用相同的g,這也是系統的全局置換不變性的結果;但是,它也支持不同的關系結構,因為g現在接受兩個參數而不是一個參數。4.
上面的太陽系例子說明了兩種關系結構:一種是沒有關系的,另一種是由所有成對關系組成的。然而,許多現實世界的系統(如圖2)在這兩個極端之間的某個地方有一個關系結構,一些實體對擁有關系,而另一些實體則沒有關系。在我們太陽系的例子中,如果系統由行星及其衛星組成,人們可能會忽略不同行星的衛星之間的相互作用,從而試圖對其進行近似計算。實際上,這意味著只計算某些對象對之間的交互,即x0i=f(xi,Pj∈δ(i)g(xi,xj)),其中δ(i)? {1,…,n}是節點i周圍的一個鄰域。這對應于一個圖,因為第i個對象僅與由其鄰域描述的其他對象的子集交互。注意,更新后的狀態仍然不依賴于我們描述鄰域的順序。5.
一般來說,圖是一種支持任意(成對)關系結構的表示,圖上的計算提供了一種強大的關系歸納偏置,超出了卷積層和遞歸層所能提供的。
3圖網絡
在“圖形神經網絡”的保護下(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年),對在圖形上運行并相應構造其計算的神經網絡進行了十多年的開發和廣泛探索,但近年來其范圍和普及度迅速增長。我們將在下一小節(3.1)中對這些方法的文獻進行綜述。然后在剩下的小節中,我們介紹了我們的圖網絡框架,它概括和擴展了這一領域的幾行工作。
3.1背景
圖形神經網絡家族中的模型(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年)已經在不同的問題領域進行了探索,包括監督、半監督、無監督和強化學習設置。它們在被認為具有豐富關系結構的任務中非常有效,例如視覺場景理解任務(Raposo等人,2017年;Santoro等人,2017年)和few-shot學習(Garcia和Bruna,2018年)。它們還被用于學習物理系統的動力學(Battaglia等人,2016;Chang等人,2017;Watters等人,2017;van Steenkiste等人,2018;Sanchez Gonzalez等人,2018)和多智能體系統(Sukhbatar等人,2016;Hoshen,2017;Kipf等人,2018),推理知識圖(Bordes等人,2013年;O?noro Rubio等人,2017年;Hamaguchi等人,2017年),預測分子的化學性質(Duvenaud等人,2015年;Gilmer等人,2017年),預測道路交通(Li等人,2017年;Cui等人,2018年),對圖像和視頻(Wang等人,2018c;Hu等人,2017)以及三維網格和點云(Wang等人,2018d)進行分類和分割,對圖像中的區域進行分類(Chen等人,2018a),執行半監督文本分類(Kipf和Welling,2017),以及機器平移(Vaswani等人,2017年;Shaw等人,2018年;Gulcehre等人,2018年)。它們被用于無模型(Wang等人,2018b)和基于模型(Hamrick等人,2017;Pascanu等人,2017;Sanchez-Gonzalez等人,2018)的連續控制、無模型強化學習(Hamrick等人,2018;Zambaldi等人,2018)以及更經典的規劃方法(Toyer等人,2017)。
許多涉及離散實體和結構推理的傳統計算機科學問題也已通過圖形神經網絡進行了探索,如組合優化(Bello et al.,2016;Nowak et al.,2017;Dai et al.,2017)、布爾可滿足性(Selsam et al.,2018),程序表示和驗證(Allamanis等人,2018;Li等人,2016),細胞自動機和圖靈機建模(Johnson,2017),以及在圖形模型中執行推理(Yoon等人,2018)。最近的工作還側重于建立圖的生成模型(Li等人,2018;De Cao和Kipf,2018;You等人,2018;Bojchevski等人,2018),以及圖嵌入的無監督學習(Perozzi等人,2014;Tang等人,2015;Grover和Leskovec,2016;Garc?a-Dur'an和Niepert,2017)。
上面引用的工作絕不是一個詳盡的列表,而是提供了圖形神經網絡已被證明有用的領域寬度的代表性橫截面。我們向感興趣的讀者介紹了一些現有的評論,這些評論更深入地研究了圖形神經網絡的工作。特別是,Scarselli等人(2009a)提供了早期圖形神經網絡方法的權威概述。Bronstein等人(2017年)對非歐幾里德數據的深度學習進行了出色的調查,并探索了圖形神經網絡、圖形卷積網絡和相關光譜方法。最近,Gilmer等人(2017)介紹了消息傳遞神經網絡(MPNN),通過類比圖形模型中的信息傳遞,統一了各種圖形神經網絡和圖形卷積網絡方法(Monti et al.,2017;Bruna et al.,2014;Henaff et al.,2015;Defferard et al.,2016;Niepert et al.,2016;Kipf and Welling,2017;Bronstein et al.,2017)。類似地,Wang et al.(2018c)引入了非局部神經網絡(NLNN),該網絡通過類比計算機視覺和圖形模型的方法,統一了各種“自注意”式方法(Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018),用于捕獲信號中的長距離依賴性。
3.2圖網絡(GN)塊
現在,我們提出了我們的圖網絡(GN)框架,它定義了一類用于圖結構表示的關系推理的函數。我們的GN框架概括和擴展了各種圖形神經網絡、MPNN和NLNN方法(Scarselli等人,2009a;Gilmer等人,2017;Wang等人,2018c),并支持從簡單的構建塊構建復雜的架構。注意,我們避免在“圖網絡”標簽中使用術語“神經”,以反映它們可以用神經網絡以外的函數實現,盡管這里我們的重點是神經網絡實現。
GN框架中的主要計算單元是GN塊,這是一個“圖對圖”模塊,它將圖形作為輸入,對結構執行計算,并將圖形作為輸出返回。如框3所述,實體由圖的節點表示,關系由邊表示,系統級屬性由全局屬性表示。GN框架的塊組織強調可定制性和合成新架構,以表達所需的關系歸納偏置。關鍵的設計原則是:靈活的表示(見第4.1節);在區塊結構內可配置(見第4.2節);和可組合的多塊架構(見第4.3節)。
我們將介紹一個激勵示例,以幫助使GN形式主義更具體。考慮在任意重力場中預測一組橡膠球的運動,而不是相互碰撞,每一個都有一個或多個彈簧將它們連接到一些(或全部)其它的。我們將在下面的定義中引用這個運行示例,以激發圖形表示和在其上運行的計算。圖2描述了一些其他常見場景,這些場景可以用圖形表示,并使用圖網絡進行推理。
3.2.1“圖形”的定義
在我們的GN框架中,圖被定義為3元組G=(u,V,E)(有關圖表示的詳細信息,請參見框3)。u是一個全局屬性;例如,u可能代表重力場。V={vi}i=1:Nv是節點集(基數Nv),其中每個vi是節點的屬性。例如,V可以表示每個球,具有位置、速度和質量屬性。E={(ek,rk,sk)}k=1:Ne是邊的集合(基數Ne),其中每個ek是邊的屬性,rk是接收方節點的索引,sk是發送方節點的索引。例如,E可能表示不同球之間存在彈簧,以及相應的彈簧常數。
方框3:我們對“圖”的定義
這里,我們使用“圖”來表示具有全局屬性的有向、有屬性的多重圖。在我們的術語中,節點表示為vi,邊表示為ek,全局屬性表示為u。我們還使用sk和rk分別表示邊k的發送方和接收方節點的索引(見下文)。更準確地說,我們將這些術語定義為:定向:單向邊,從“發送方”節點到“接收方”節點。屬性:可以編碼為向量、集合甚至其他圖形的屬性。屬性化:邊和頂點具有與其關聯的屬性。全局屬性:圖形級屬性。多圖:頂點之間可以有多條邊,包括自邊。圖2顯示了與我們可能對建模感興趣的真實數據相對應的各種不同類型的圖形,包括物理系統、分子、圖像和文本。
3.2.2 GN塊的內部結構
GN塊包含三個“更新”函數φ和三個“聚合”函數ρ,
其中E0i={(e0k,rk,sk)}rk=i,k=1:Ne,v0={v0i}i=1:Nv,E0=Si E0i={(e0k,rk,sk)}k=1:Ne。φe跨所有邊映射以計算每邊更新,φv跨所有節點映射以計算每節點更新,φu作為全局更新應用一次。ρ函數都以一個集合作為輸入,并將其簡化為表示聚合信息的單個元素。關鍵的是,ρ函數必須對其輸入的排列保持不變,并且應采用可變數量的參數(例如,元素求和、平均值、最大值等)。
3.2.GN塊內的3個計算步驟
當圖形G作為GN塊的輸入提供時,計算從邊開始,到節點,再到全局級別。圖3顯示了每個計算中涉及的圖形元素,圖4a顯示了完整的GN塊及其更新和聚合功能。算法1顯示了以下計算步驟:
1.φe應用于每條邊,帶有參數(ek、vrk、vsk、u),并返回e0k。在我們的例子中,這可能對應于兩個相連的球之間的力或勢能。每個節點i的結果每邊輸出集是E0i={(e0k,rk,sk)}rk=i,k=1:Ne。E0=Si E0i={(e0k,rk,sk)}k=1:Ne是所有每邊輸出的集合。
2.ρe→v應用于E0i,并將投影到頂點i的邊的邊更新聚合到“E0i”中,該更新將在下一步的節點更新中使用。在我們的運行示例中,這可能對應于作用在第i個球上的所有力或勢能的總和。
3.φv應用于每個節點i,以計算更新的節點屬性v0i。在我們的跑步示例中,φv可以計算類似于每個球的更新位置、速度和動能。每節點輸出的結果集是,v0={v0i}i=1:Nv。
4.ρe→u應用于E0,并將所有邊緣更新聚合為“E0”,然后在下一步的全局更新中使用。在我們的運行示例中,ρe→u可以計算合力(在這種情況下,根據牛頓第三定律,合力應為零)和彈簧的勢能。
5.ρv→u應用于V0,并將所有節點更新聚合到“V0”,然后將在下一步的全局更新中使用。在我們的運行示例中,ρv→u可以計算系統的總動能。
6.φu對每個圖形應用一次,并計算全局屬性u0的更新。在我們的運行示例中,φu可能計算出與物理系統的凈力和總能量類似的東西。
注意,盡管我們在這里假設了這一系列步驟,但順序并沒有嚴格執行:例如,可以反轉更新函數,從全局更新到每節點更新,再到每邊更新。Kearnes等人(2016年)以類似的方式計算節點的邊緣更新。
3.2.圖網絡中的4個關系歸納偏置
我們的GN框架在用作學習過程中的組件時施加了幾個強關系歸納偏置。首先,圖形可以表示實體之間的任意關系,這意味著GN的輸入決定表示如何交互和隔離,而不是由固定的架構決定這些選擇。例如,假設兩個實體具有關系,因此應該相互作用,這一假設由實體對應節點之間的邊表示。類似地,缺少邊表示節點之間沒有關系且不應直接影響彼此的假設。
第二,圖將實體及其關系表示為集合,集合對置換是不變的。這意味著GNs對這些元素的順序保持不變6,這通常是可取的。例如,場景中的對象沒有自然順序(請參見第2.2節)。
第三,GN的每邊和每節點函數分別在所有邊和節點上重用。這意味著GNs自動支持一種組合泛化形式(見第5.1節):因為圖形由邊、節點和全局特征組成,單個GN可以對不同大小(邊和節點數量)和形狀(邊連通性)的圖形進行操作。
4圖網絡架構的設計原則
根據上文第3.2節中列出的設計原則,GN框架可用于實現多種架構,這些原則也對應于下文的小節(4.1、4.2和4.3)。一般來說,該框架對特定的屬性表示和函數形式是不可知的。然而,在這里,我們主要注意深度學習架構,它允許GNs充當可學習的圖到圖函數近似器。
4.1靈活表述
圖網絡以兩種方式支持高度靈活的圖表示:第一,在屬性表示方面;第二,關于圖本身的結構。
4.1.1屬性
GN塊的全局、節點和邊屬性可以使用任意表示格式。在深度學習實現中,實值向量和張量是最常見的。但是,也可以使用其他數據結構,例如序列、集合甚至圖形。
問題的需求通常會決定屬性應該使用什么表示。例如,當輸入數據是圖像時,屬性可以表示為圖像圖塊的張量;然而,當輸入數據是文本文檔時,屬性可能是對應于句子的單詞序列。
對于更廣泛架構內的每個GN塊,邊緣和節點輸出通常對應于向量或張量列表,每個邊緣或節點一個,全局輸出對應于單個向量或張量。這允許GN的輸出被傳遞到其他深度學習構建塊,如MLP、CNN和RNN。
GN塊的輸出也可以根據任務的需求進行調整。特別地,
? 注意邊緣的GN使用邊緣作為輸出,例如,對實體之間的交互做出決策(Kipf等人,2018年;Hamrick等人,2018年)。
? 以節點為中心的GN使用節點作為輸出,例如對物理系統進行推理(Battaglia等人,2016;Chang等人,2017;Wang等人,2018b;Sanchez Gonzalez等人,2018)。
? 聚焦于圖形的GN使用全局作為輸出,例如預測物理系統的勢能(Battaglia et al.,2016)、分子的性質(Gilmer et al.,2017)或對視覺場景問題的回答(Santoro et al.,2017)。
節點、邊和全局輸出也可以根據任務進行混合和匹配。例如,Hamrick et al.(2018)使用輸出邊緣和全局屬性來計算針對行動的策略。
4.1.2圖結構
在定義如何將輸入數據表示為圖形時,通常有兩種情況:第一,輸入明確指定關系結構;其次,必須推斷或假設關系結構。這些并不是嚴格的區分,而是一個連續統的極端。
具有更明確指定實體和關系的數據示例包括知識圖、社交網絡、解析樹、優化問題、化學圖、道路網絡和具有已知交互的物理系統。圖2a-d說明了如何將此類數據表示為圖形。
關系結構不明確且必須推斷或假設的數據示例包括可視場景、文本語料庫、編程語言源代碼和多代理系統。在這些類型的設置中,數據可以被格式化為一組沒有關系的實體,或者甚至只是向量或張量(例如,圖像)。如果未明確指定實體,則可以假設它們,例如,通過將句子中的每個單詞(Vaswani et al.,2017)或CNN輸出特征圖中的每個局部特征向量視為節點(Watters et al.,2017;Santoro et al.,2017;Wang et al.,2018c)(圖2e-f)。或者,可以使用單獨的學習機制從非結構化信號中推斷實體(Luong等人,2015年;Mnih等人,2014年;Eslami等人,2016年;van Steenkiste等人,2018年)。如果關系不可用,最簡單的方法是實例化實體之間所有可能的有向邊(圖2f)。然而,這對于大量實體來說是禁止的,因為可能的邊的數量隨著節點的數量呈二次增長。因此,開發從非結構化數據推斷稀疏結構的更復雜方法(Kipf et al.,2018)是一個重要的未來方向。
4.2在塊結構內可配置
GN塊中的結構和功能可以以不同的方式配置,這提供了靈活性,可以將哪些信息作為其功能的輸入,以及如何生成輸出邊緣、節點和全局更新。特別是,方程1中的每個φ都必須用函數f來實現,其中f的參數簽名決定了它需要什么樣的信息作為輸入;在圖4中,每個φ的輸入箭頭表示是否將u、V和E作為輸入。Hamrick等人(2018年)和Sanchez Gonzalez等人(2018年)使用了圖4a所示的完整GN塊。他們的φ實現使用了神經網絡(下面表示為NNe、NNv和NNu,以表明它們是具有不同參數的不同函數)。他們的ρ實現使用元素求和,但也可以使用平均值和max/min,其中[x,y,z]表示向量/張量串聯。對于向量屬性,MLP通常用于φ,而對于張量(如圖像特征貼圖),CNN可能更適合。
φ函數也可以使用RNN,這需要額外的隱藏狀態作為輸入和輸出。圖4b顯示了一個非常簡單的GN塊版本,其中RNN作為φ函數:在這個公式中沒有消息傳遞,這種類型的塊可能用于某些動態圖形狀態的循環平滑。當然,RNN作為φ函數也可以在完整的GN塊中使用(圖4a)。
各種其他架構可以在GN框架中表示,通常是不同的功能選擇和塊內配置。剩下的小節將探討如何以不同的方式配置塊結構中的GN,并舉例說明使用此類配置的已發布作品。詳情見附錄。
4.2.1消息傳遞神經網絡(MPNN)
Gilmer等人(2017年)的MPNN概括了許多以前的架構,可以自然地轉化為GN形式主義。遵循MPNN論文的術語(見Gilmer等人(2017),第2-4頁):
? 消息函數Mt起GNφe的作用,但不將u作為輸入,
? 元素相加用于GN的ρe→五、? 更新函數Ut起著GN的φv的作用,
? 讀出函數R起著GN的φu的作用,但不將u或E0作為輸入,因此是對GN的ρe的模擬→u不是必需的;
? dmaster的用途與GN的u大致相似,但定義為連接到所有其他節點的額外節點,因此不會直接影響邊緣和全局更新。然后可以在GN的V中表示它。
圖4c顯示了MPNN是如何根據GN框架構建的。有關詳細信息和各種MPNN架構,請參見附錄。
4.2.2非局部神經網絡(NLNN)
Wang et al.(2018c)的NLNN統一了各種“內部/自/頂點/圖形注意”方法(Lin et al.,2017;Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018;Shaw et al.,2018),也可以轉化為GN形式主義。標簽“注意”是指節點如何更新:每個節點更新都基于其鄰居的節點屬性(某些函數)的加權和,其中節點與其一個鄰居之間的權重由其屬性之間的標量成對函數計算(然后在鄰居之間歸一化)。已發布的NLNN形式不明確包含邊,而是計算所有節點之間的成對注意權重。但各種符合NLNN的模型,如頂點注意交互網絡(Hoshen,2017)和圖形注意網絡(Veliˇckovi'c等人,2018),能夠通過有效地將不共享邊的節點之間的權重設置為零來處理顯式邊。
如圖4d和圖5所示,φe被分解成標量成對相互作用函數,該函數返回非歸一化注意項,表示為αe(vrk,vsk)=a0k,以及向量值非成對項,表示為βe(vsk)=b0k。在ρe中→v聚合時,a0k項在每個接收器的邊緣進行歸一化,b0k和元素相加:
在NLNN論文的術語中(見Wang等人(2018c),第2-4頁):
? 它們的f起著上述α的作用,
? 其g起上述β的作用。
此公式可能有助于僅注意與下游任務最相關的交互,尤其是當輸入實體是一個集合時,通過在它們之間添加所有可能的邊形成一個圖形。
Vaswani等人(2017年)的多頭自注意機制增加了一個有趣的特征,其中φe和ρe→v由一組并行函數實現,其結果作為ρe的最后一步連接在一起→五、這可以解釋為使用類型化邊,其中不同類型索引到不同的φe分量函數,類似于Li等人(2016)。
有關詳細信息和各種NLNN架構,請參見附錄。
4.2.3其他圖網絡變體
如第4.1節所述,完整GN(方程式2)可用于預測完整圖或(u0,v0,E0)的任何子集。1.例如,要預測圖的全局屬性,可以忽略v0和E0。類似地,如果輸入中未指定全局、節點或邊屬性,則這些向量的長度可以為零,即不作為顯式輸入參數。同樣的想法也適用于不使用全套映射(φ)和歸約(ρ)函數的其他GN變體。例如,交互網絡(Battaglia et al.,2016;Watters et al.,2017)和神經物理引擎(Chang et al.,2017)使用完整的GN,但由于缺乏全局更新邊緣屬性(詳見附錄)。
各種模型,包括CommNet(Sukhbatar et al.,2016)、structure2vec(Dai et al.,2016)(在(Dai et al.,2017)的版本中)和門控圖序列神經網絡(Li et al.,2016)都使用了φe,它不直接計算成對交互,而是忽略接收節點,僅在發送方節點上操作,在某些情況下為邊緣屬性。這可以通過φe的實現來表示,具有以下簽名,例如:
詳見附錄。
關系網絡(Raposo et al.,2017;Santoro et al.,2017)完全繞過節點更新,直接從匯集的邊緣信息預測全局輸出(見圖4e),
深度集(Zaheer et al.,2017)完全繞過邊緣更新,直接從集合節點信息預測全局輸出(圖4f),
PointNet(Qi等人,2017年)使用類似的更新規則,ρv的最大聚合→u和兩步節點更新。
4.3可組合多塊架構
圖網絡的一個關鍵設計原則是通過組合GN塊來構造復雜的架構。我們將GN塊定義為始終將由邊、節點和全局元素組成的圖作為輸入,并返回具有相同組成元素的圖作為輸出(當這些元素未顯式更新時,只需將輸入元素傳遞到輸出)。該圖對圖輸入/輸出接口確保一個GN塊的輸出可以作為輸入傳遞給另一個GN塊,即使它們的內部配置不同,類似于標準深度學習工具包的張量對張量接口。在最基本的形式中,兩個GN塊GN1和GN2可以組成GN1? 通過將第一個的輸出作為輸入傳遞給第二個:G0=GN2(GN1(G))。
可以組成任意數量的GN塊,如圖6a所示。這些塊可以是非共享的(不同的函數和/或參數,類似于CNN的層),GN1=GN2=··6=GNM,或共享的(重用的函數和參數,類似于展開的RNN),GN1=GN2=·GNM。圖6a中GNcore周圍的白色框表示M個重復的內部處理子步驟,其中包含共享或非共享GN塊。共享配置類似于消息傳遞(Gilmer et al.,2017),其中重復應用相同的本地更新過程以在整個結構中傳播信息(圖7)。如果我們排除全局u(它聚合來自節點和邊的信息),則節點在m個傳播步驟后可以訪問的信息由最多m個跳躍的節點和邊集確定。這可以解釋為將復雜的計算分解為更小的基本步驟。這些步驟也可用于及時捕獲順序性。在我們的球彈簧示例中,如果每個傳播步驟預測持續時間的一個時間步驟的物理動力學?t、 然后,M個傳播步驟導致總模擬時間M·?T
一種常見的架構設計是我們所稱的編碼過程解碼配置(Hamrick等人(2018年);另請參見圖6ba):輸入圖Ginp通過編碼器GNenc轉換為潛在表示G0;共享核心塊GNcore被應用M次以返回GM;最后,輸出圖形Gout由GNdec解碼。例如,在我們的運行示例中,編碼器可能會計算球之間的初始力和交互能量,核心可能會應用基本動力學更新,解碼器可能會從更新的圖形狀態中讀取最終位置。
與編碼-處理-解碼設計類似,通過維護隱藏圖Gt hid,將觀察圖Gt inp作為輸入,并在每個步驟上返回輸出圖Gt out,可以構建基于GN的循環架構(見圖6c)。這種類型的架構對于預測圖形序列特別有用,例如預測動態系統隨時間的軌跡(例如Sanchez-Gonzalez等人,2018)。由GNenc輸出的編碼圖形必須具有與Gt hid相同的結構,并且在傳遞到GNcore之前,可以通過連接其相應的ek、vi和u向量(其中向上箭頭合并到圖6c中的左側水平箭頭)輕松組合它們。對于輸出,Gt hid被復制(圖6c中右側水平箭頭拆分為向下箭頭)并由GNdec解碼。該設計以幾種方式重用GN塊:GNenc、GNdec和GNcore在每個步驟中共享,t;在每個步驟中,GNcore可以執行多個共享子步驟。
用于設計基于GN的架構的各種其他技術可能很有用。例如,Graph skip connections會在繼續進一步計算之前將GN塊的輸入圖Gm與其輸出圖Gm+1連接起來。如圖6c所示,合并和平滑輸入和隱藏的圖形信息可以使用LSTM或GRU樣式的選通方案,而不是簡單的串聯(Li等人,2016)。或者,可以在其他GN塊之前和/或之后組合不同的重復GN塊(如圖4b),以提高多個傳播步驟中表示的穩定性(Sanchez-Gonzalez et al.,2018)。
4.4在代碼中實現圖網絡
與自然可并行(例如在GPU上)的CNN(見圖1)類似,GNs具有自然并行結構:由于方程1中的φe和φv函數分別在邊和節點上共享,因此可以并行計算。實際上,這意味著對于φe和φv,節點和邊可以像典型的小批量訓練模式中的批量維度一樣處理。此外,通過將多個圖視為較大圖的不相交部分,可以將它們自然地批處理在一起。通過一些額外的簿記,這允許將在幾個獨立圖形上進行的計算批處理在一起。
重用φe和φv也提高了GNs的采樣效率。同樣,與卷積核類似,用于優化GN的φe和φv函數的樣本數分別是所有訓練圖中的邊和節點數。例如,在Sec的球示例中。3.2,一個有四個球的場景,所有球都由彈簧連接,將提供它們之間接觸交互的十二(4×3)個示例。
我們發布了一個用于構建GNs的開源軟件庫,可以在這里找到:github。com/deepmind/graph-nets。有關概述,請參見方框4。
方框4:Graph Nets開源軟件庫:github。com/deepmind/graph-nets
我們發布了一個開源庫,用于在Tensorflow/Sonnet中構建GNs。它包括如何在最短路徑查找任務、排序任務和物理預測任務中創建、操作和訓練GNs對圖形結構化數據進行推理的演示。每個演示都使用相同的GN架構,這突出了該方法的靈活性。
最短路徑演示:tinyurl。com/gn最短路徑演示
此演示創建隨機圖,并訓練GN標記任意兩個節點之間最短路徑上的節點和邊。通過一系列消息傳遞步驟(如每個步驟的圖所示),該模型改進了對最短路徑的預測。
排序演示:tinyurl。com/gn排序演示
此演示創建隨機數列表,并訓練GN對列表進行排序。在一系列消息傳遞步驟之后,模型準確預測哪些元素(圖中的列)緊隨其后(行)。
物理演示:tinyurl。com/gn物理演示
此演示創建隨機質量彈簧物理系統,并訓練GN預測下一時間步系統的狀態。模型的下一步預測可以作為輸入反饋,以創建未來軌跡的展開。下面的每個子圖顯示了超過50個時間步的真實和預測的質量彈簧系統狀態。這類似于(Battaglia等人,2016年)的“互動網絡”中的模型和實驗。
4.5摘要
在本節中,我們討論了圖網絡背后的設計原則:靈活的表示、塊結構內的可配置以及可組合的多塊架構。這三個設計原則結合在我們的框架中,非常靈活,適用于感知、語言和符號推理等廣泛領域。而且,正如我們將在本文的其余部分中看到的,圖網絡所具有的強關系歸納偏置支持組合泛化,從而使其在實現和理論方面都成為一個強大的工具。
5討論
在本文中,我們分析了關系歸納偏置在深度學習架構(如MLP、CNN和RNN)中的存在程度,并得出結論,盡管CNN和RNN確實包含關系歸納偏置,但它們無法自然地處理更結構化的表示,如集或圖。我們主張通過強調一種被稱為圖網絡的未充分利用的深度學習構建塊,在深度學習架構中構建更強的關系歸納偏置,該構建塊對圖形結構化數據執行計算。我們的圖網絡框架統一了也在圖形上運行的現有方法,并為將圖網絡組裝成復雜、復雜的架構提供了一個簡單的接口。
5.1圖網絡中的組合推廣
GNs的結構自然支持組合泛化,因為它們不嚴格在系統級執行計算,但也在實體和關系之間應用共享計算。這使得人們可以對從未見過的系統進行推理,因為它們是由熟悉的組件構建而成的,反映了馮·洪堡的“有限手段的無限使用”(洪堡,1836年;喬姆斯基,1965年)。
許多研究探索了GNs的組合泛化能力。Battaglia等人(2016年)發現,接受過一步物理狀態預測訓練的GNs可以模擬未來數千個時間步,還可以向物理系統展示準確的零炮轉移,其實體數量是訓練期間的兩倍或一半。Sanchez Gonzalez等人(2018)在更復雜的物理控制設置中發現了類似的結果,包括在模擬多關節代理上訓練為正向模型的GNs可以推廣到具有新關節數的代理。Hamrick et al.(2018)和Wang et al.(2018b)都發現基于GN的決策政策也可以轉移到新數量的實體。在組合優化問題中,Bello等人(2016);諾瓦克等人(2017年);戴等(2017);Kool和Welling(2018)表明,GNs可以很好地推廣到與他們接受過訓練的問題規模大不相同的問題。類似地,Toyer等人(2017年)對不同規模的規劃問題進行了概括,Hamilton等人(2017年)對以前未看到的數據生成有用的節點嵌入進行了概括。關于布爾SAT問題,Selsam et al.(2018)證明了對不同問題規模和跨問題分布的泛化:在強烈修改輸入圖的分布及其典型局部結構后,他們的模型保持了良好的性能。考慮到GNs以實體和關系為中心的組織,這些組合泛化的顯著例子并不完全令人驚訝,但仍然為以下觀點提供了重要支持:擁抱明確的結構和靈活的學習是實現現代人工智能中更好的樣本效率和泛化的可行方法。
5.2圖網絡的限制
GNs和MPNNs的學習消息傳遞形式(Shervashidze et al.,2011)的一個限制是,它不能保證解決某些類別的問題,例如區分某些非同構圖。Kondor等人(2018年)建議最好使用協變7(Cohen和Welling,2016;Kondor和Trivedi,2018),而不是節點和邊的排列不變性,并提出了“協變成分網絡”,它可以保留結構信息,并允許僅在需要時忽略它。
更一般地說,盡管圖形是表示結構信息的一種強大方式,但它們也有局限性。例如,遞歸、控制流和條件迭代等概念不容易用圖形表示,而且至少需要額外的假設(例如,在解釋抽象語法樹時)。程序和更多“類似計算機”的處理可以提供與這些概念相關的更大的代表性和計算表達能力,一些人認為它們是人類認知的重要組成部分(Tenenbaum et al.,2011;Lake et al.,2015;Goodman et al.,2015)。
5.3開放性問題
盡管我們對圖網絡可能產生的潛在影響感到興奮,但我們警告說,這些模型只是向前邁出了一步。實現圖網絡的全部潛力可能比在一個框架下組織它們的行為更具挑戰性,事實上,關于使用圖網絡的最佳方式,存在許多尚未回答的問題。
一個緊迫的問題是:圖網絡從何而來?深度學習的一個特點是它能夠對原始感官數據(如圖像和文本)執行復雜的計算,但目前尚不清楚將感官數據轉換為圖形等更結構化表示的最佳方法。一種方法(我們已經討論過)假設空間或語言實體之間存在完全連通的圖形結構,如關于自注意的文獻(Vaswani et al.,2017;Wang et al.,2018c)。然而,這種表示可能不完全對應于“真實”實體(例如,卷積特征不直接對應于場景中的對象)。此外,許多底層圖結構比完全連通圖要稀疏得多,如何歸納這種稀疏性是一個懸而未決的問題。一些活躍的研究正在探索這些問題(Watters等人,2017年;van Steenkiste等人,2018年;Li等人,2018年;Kipf等人,2018年),但到目前為止,還沒有一種方法能夠可靠地從感官數據中提取離散實體。開發這樣一種方法對未來的研究來說是一個令人興奮的挑戰,一旦解決,可能會為更強大、更靈活的推理算法打開大門。
一個相關的問題是如何在計算過程中自適應地修改圖結構。例如,如果一個對象拆分為多個片段,則表示該對象的節點也應拆分為多個節點。類似地,僅表示接觸對象之間的邊可能很有用,因此需要能夠根據上下文添加或刪除邊。如何支持這種適應性的問題也在積極研究中,特別是用于識別圖形底層結構的一些方法可能適用(例如,Li等人,2018年;Kipf等人,2018年)。
人類認知強烈地假設世界是由對象和關系組成的(Spelke和Kinzler,2007),由于GNs做出了類似的假設,它們的行為往往更易于解釋。GNs操作的實體和關系通常對應于人類理解的事物(如物理對象),從而支持更可解釋的分析和可視化(如Selsam et al.,2018)。未來工作的一個有趣方向是進一步探索圖網絡行為的可解釋性。
5.4學習和結構的綜合方法
雖然我們在這里的重點一直是圖形,但本文中的一個收獲不是關于圖形本身,而是關于將強大的深度學習方法與結構化表示相結合的方法。我們對其他類型的結構化表示和計算的相關方法感到興奮,例如語言樹(Socher等人,2011a,b,2012,2013;Tai等人,2015;Andreas等人,2016),狀態動作圖中的部分樹遍歷(Guez等人,2018;Farquhar等人,2018),分層行動政策(Andreas等人,2017年)、多代理溝通渠道(Foerster等人,2016年)、“膠囊”(Sabour等人,2017年)和計劃(Parisotto等人,2017年)。其他方法試圖通過模擬計算機中的關鍵硬件和軟件組件以及它們如何在彼此之間傳輸信息來捕獲不同類型的結構,例如持久時隙存儲、寄存器、內存I/O控制器、堆棧、,和排隊(例如Dyer等人,2015年;Grefenstette等人,2015年;Joulin和Mikolov,2015年;Sukhbatar等人,2015年;Kurach等人,2016年;Graves等人,2016年)。
5.5結論
在深度學習的推動下,人工智能的最新進展已經在許多重要領域發生了變革。盡管如此,人類和機器智能之間仍然存在巨大的差距,特別是在高效、可推廣的學習方面。我們主張將組合泛化作為人工智能的首要任務,并主張采用綜合方法,這些方法借鑒了人類認知、傳統計算機科學、標準工程實踐和現代深度學習的思想。在這里,我們探索了靈活的基于學習的方法,這些方法實現了強關系歸納偏置,以利用顯式結構化表示和計算,并提出了一個稱為圖網絡的框架,該框架概括和擴展了應用于圖的神經網絡的各種最新方法。圖網絡旨在促進使用可定制的圖到圖構建塊構建復雜架構,它們的關系歸納偏置促進組合泛化,并提高了與其他標準機器學習構建塊相比的樣本效率。
然而,盡管有其優點和潛力,可學習的圖形模型只是人類智能道路上的一塊墊腳石。我們對許多其他相關但可能未得到充分重視的研究方向持樂觀態度,包括將基于學習的方法與課程相結合(Ritchie等人,2016年;Andreas等人,2016年;Gaunt等人,2016年;Evans和Grefenstette,2018年;Evans等人,2018年),開發以抽象為重點的基于模型的方法(Kansky等人,2017年;Konidaris等人,2018年;Zhang等人,2018年;Hay等人,2018年),加大對元學習的投資(Wang等人,2016年,2018a;Finn等人,2017年),探索多智能體學習和交互作為高級智能的關鍵催化劑(Nowak,2006;Ohtsuki等人,2006)。這些方向都涉及實體、關系和組合泛化的豐富概念,并且可能受益于與學習顯式結構化表示的關系推理方法的更多交互。感謝Tobias Pfaff、Danilo Rezende、Nando de Freitas、Murray Shanahan、Thore Graepel、John Jupper、Demis Hassabis以及更廣泛的DeepMind和Google社區提供了寶貴的反饋和支持。
附錄:附加模型的公式
在本附錄中,我們將給出更多示例,說明已發布的網絡如何適應方程式1定義的框架。
交互網絡
交互網絡(Battaglia et al.,2016;Watters et al.,2017)和神經物理引擎Chang et al.(2017)使用完整的GN,但由于缺少全局更新邊緣屬性:該工作還包括對上述公式的擴展,該公式輸出全局預測,而不是每個節點預測:
非成對相互作用
門控圖序列神經網絡(GGS-NN)(Li et al.,2016)使用稍微廣義的公式,其中每條邊都有一個附加類型tk∈ {1,…,T},更新為:
重復應用這些更新(NNv是GRU(Cho等人,2014)),然后是一個全局解碼器,該解碼器計算嵌入式最終節點狀態的加權和。這里,每個NNe、tk都是一個具有特定參數的神經網絡。
CommNet(Sukhbatar等人,2016年)(以(Hoshen,2017年)所述的更一般的形式)使用:
基于注意的方法
Transformer架構(Vaswani et al.,2017)中的單頭自注意(SA)實現了非局部公式:其中NNα查詢、NNα鍵和NNβ同樣是具有不同參數和可能不同架構的神經網絡函數。他們還使用一個多標題版本,該版本使用不同的NNα查詢h、NNα鍵h、NNβh計算Nh并行“e0ih”,其中h對不同的參數進行索引。這些將傳遞給f v并連接:
頂點注意交互網絡(Hoshen,2017)與單頭SA非常相似,但使用歐幾里德距離作為注意相似性度量,在注意輸入的嵌入中使用共享參數,并在節點更新功能中使用輸入節點功能,
圖形注意網絡(Veliˇckovi'c et al.,2018)也類似于多頭SA,但使用神經網絡作為注意相似性度量,在注意輸入的嵌入中共享參數:
Shaw等人(2018)擴展了具有相對位置編碼的多頭SA,超越了特定的非局部公式。“相對”是指序列中節點之間的空間距離編碼或度量空間中的其他信號。這可以用GN語言表示為邊緣屬性ek,并將上述多頭SA中的βe(vsk)替換為:
信念傳播嵌入
最后,我們簡要總結了Dai等人(2016)的通用“structure2vec”算法如何適合我們的框架。為此,我們需要稍微修改主方程1,即:
邊緣的特征現在在接收者和發送者之間具有“消息”的含義;請注意,對于邊和節點更新,只有一組參數需要學習。