CNN系列:GoogleNet:深入卷積架構(Going Deeper with Convolutions)

譯者按: GoogLeNet是2014年Christian Szegedy提出的一種全新的深度學習結構,在這之前的AlexNet、VGG等結構都是通過增大網絡的深度(層數)來獲得更好的訓練效果,但層數的增加會帶來很多負作用,比如overfit、梯度消失、梯度爆炸等。inception的提出則從另一種角度來提升訓練結果:能更高效的利用計算資源,在相同的計算量下能提取到更多的特征,從而提升訓練結果,同時也是在2014年ImageNet大規模視覺識別挑戰賽(ILSVRC 2014)中設置用于分類和檢測的新技術。

這篇文章作者之一是賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾于新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現任Facebook研究科學家,負責前沿AI平臺的開發以及前沿的深度學習研究。也是著名深度學習框架caffe的作者


摘要

我們在ImageNet大規模視覺識別挑戰賽2014(ILSVRC14)上提出了一種代號為Inception的深度卷積神經網絡結構,并在分類和檢測上取得了新的最好結果。這個架構的主要特點是提高了網絡內部計算資源的利用率。通過精心的手工設計,我們在增加了網絡深度和廣度的同時保持了計算預算不變。為了優化質量,架構的設計以赫布理論和多尺度處理直覺為基礎。我們在ILSVRC14提交中應用的一個特例被稱為GoogLeNet,一個22層的深度網絡,其質量在分類和檢測的背景下進行了評估。

1. 引言

過去三年中,由于深度學習和卷積網絡的發展[10],我們的目標分類和檢測能力得到了顯著提高。一個令人鼓舞的消息是,大部分的進步不僅僅是更強大硬件、更大數據集、更大模型的結果,而主要是新的想法、算法和網絡結構改進的結果。例如,ILSVRC 2014競賽中最靠前的輸入除了用于檢測目的的分類數據集之外,沒有使用新的數據資源。我們在ILSVRC 2014中的GoogLeNet提交實際使用的參數只有兩年前Krizhevsky等人[9]獲勝結構參數的1/12,而結果明顯更準確。在目標檢測前沿,最大的收獲不是來自于越來越大的深度網絡的簡單應用,而是來自于深度架構和經典計算機視覺的協同,像Girshick等人[6]的R-CNN算法那樣。

另一個顯著因素是隨著移動和嵌入式設備的推動,我們的算法的效率很重要——尤其是它們的電力和內存使用。值得注意的是,正是包含了這個因素的考慮才得出了本文中呈現的深度架構設計,而不是單純的為了提高準確率。對于大多數實驗來說,模型被設計為在一次推斷中保持15億乘加的計算預算,所以最終它們不是單純的學術好奇心,而是能在現實世界中應用,甚至是以合理的代價在大型數據集上使用。

在本文中,我們將關注一個高效的計算機視覺深度神經網絡架構,代號為Inception,它的名字來自于Lin等人[12]網絡論文中的Network與著名的“we need to go deeper”網絡迷因[1]的結合。在我們的案例中,單詞“deep”用在兩個不同的含義中:首先,在某種意義上,我們以“Inception module”的形式引入了一種新層次的組織方式,在更直接的意義上增加了網絡的深度。一般來說,可以把Inception模型看作論文[12]的邏輯頂點同時從Arora等人[2]的理論工作中受到了鼓舞和引導。這種架構的好處在ILSVRC 2014分類和檢測挑戰賽中通過實驗得到了驗證,它明顯優于目前的最好水平。

2. 近期工作

從LeNet-5 [10]開始,卷積神經網絡(CNN)通常有一個標準結構——堆疊的卷積層(后面可以選擇有對比歸一化和最大池化)后面是一個或更多的全連接層。這個基本設計的變種在圖像分類著作流行,并且目前為止在MNIST,CIFAR和更著名的ImageNet分類挑戰賽中[9, 21]的已經取得了最佳結果。對于更大的數據集例如ImageNet來說,最近的趨勢是增加層的數目[12]和層的大小[21, 14],同時使用丟棄[7]來解決過擬合問題。

盡管擔心最大池化層會引起準確空間信息的損失,但與[9]相同的卷積網絡結構也已經成功的應用于定位[9, 14],目標檢測[6, 14, 18, 5]和行人姿態估計[19]。

受靈長類視覺皮層神經科學模型的啟發,Serre等人[15]使用了一系列固定的不同大小的Gabor濾波器來處理多尺度。我們使用一個了類似的策略。然而,與[15]的固定的2層深度模型相反,Inception結構中所有的濾波器是學習到的。此外,Inception層重復了很多次,在GoogleNet模型中得到了一個22層的深度模型。

Network-in-Network是Lin等人[12]為了增加神經網絡表現能力而提出的一種方法。在他們的模型中,網絡中添加了額外的1 × 1卷積層,增加了網絡的深度。我們的架構中大量的使用了這個方法。但是,在我們的設置中,1 × 1卷積有兩個目的:最關鍵的是,它們主要是用來作為降維模塊來移除卷積瓶頸,否則將會限制我們網絡的大小。這不僅允許了深度的增加,而且允許我們網絡的寬度增加但沒有明顯的性能損失。

最后,目前最好的目標檢測是Girshick等人[6]的基于區域的卷積神經網絡(R-CNN)方法。R-CNN將整個檢測問題分解為兩個子問題:利用低層次的信號例如顏色,紋理以跨類別的方式來產生目標位置候選區域,然后用CNN分類器來識別那些位置上的對象類別。這樣一種兩個階段的方法利用了低層特征分割邊界框的準確性,也利用了目前的CNN非常強大的分類能力。我們在我們的檢測提交中采用了類似的方式,但探索增強這兩個階段,例如對于更高的目標邊界框召回使用多盒[5]預測,并融合了更好的邊界框候選區域分類方法。

3. 動機和高層思考

提高深度神經網絡性能最直接的方式是增加它們的尺寸。這不僅包括增加深度——網絡層次的數目——也包括它的寬度:每一層的單元數目。這是一種訓練更高質量模型容易且安全的方法,尤其是在可獲得大量標注的訓練數據的情況下。但是這個簡單方案有兩個主要的缺點。更大的尺寸通常意味著更多的參數,這會使增大的網絡更容易過擬合,尤其是在訓練集的標注樣本有限的情況下。這是一個主要的瓶頸,因為要獲得強標注數據集費時費力且代價昂貴,經常需要專家評委在各種細粒度的視覺類別進行區分,例如圖1中顯示的ImageNet中的類別(甚至是1000類ILSVRC的子集)。


圖1: ILSVRC 2014分類挑戰賽的1000類中兩個不同的類別。區分這些類別需要領域知識。

統一增加網絡尺寸的另一個缺點是計算資源使用的顯著增加。例如,在一個深度視覺網絡中,如果兩個卷積層相連,它們的濾波器數目的任何統一增加都會引起計算量平方式的增加。如果增加的能力使用時效率低下(例如,如果大多數權重結束時接近于0),那么會浪費大量的計算能力。由于計算預算總是有限的,計算資源的有效分布更偏向于尺寸無差別的增加,即使主要目標是增加性能的質量。

解決這兩個問題的一個基本的方式就是引入稀疏性并將全連接層替換為稀疏的全連接層,甚至是卷積層。除了模仿生物系統之外,由于Arora等人[2]的開創性工作,這也具有更堅固的理論基礎優勢。他們的主要成果說明如果數據集的概率分布可以通過一個大型稀疏的深度神經網絡表示,則最優的網絡拓撲結構可以通過分析前一層激活的相關性統計和聚類高度相關的神經元來一層層的構建。雖然嚴格的數學證明需要在很強的條件下,但事實上這個聲明與著名的赫布理論產生共鳴——神經元一起激發,一起連接——實踐表明,基礎概念甚至適用于不嚴格的條件下。

遺憾的是,當碰到在非均勻的稀疏數據結構上進行數值計算時,現在的計算架構效率非常低下。即使算法運算的數量減少100倍,查詢和緩存丟失上的開銷仍占主導地位:切換到稀疏矩陣可能是不可行的。隨著穩定提升和高度調整的數值庫的應用,差距仍在進一步擴大,數值庫要求極度快速密集的矩陣乘法,利用底層的CPU或GPU硬件[16, 9]的微小細節。非均勻的稀疏模型也要求更多的復雜工程和計算基礎結構。目前大多數面向視覺的機器學習系統通過采用卷積的優點來利用空域的稀疏性。然而,卷積被實現為對上一層塊的密集連接的集合。為了打破對稱性,提高學習水平,從論文[11]開始,ConvNets習慣上在特征維度使用隨機的稀疏連接表,然而為了進一步優化并行計算,論文[9]中趨向于變回全連接。目前最新的計算機視覺架構有統一的結構。更多的濾波器和更大的批大小要求密集計算的有效使用。

這提出了下一個中間步驟是否有希望的問題:一個架構能利用濾波器水平的稀疏性,正如理論所建議的那樣,但能通過利用密集矩陣計算來利用我們目前的硬件。稀疏矩陣乘法的大量文獻(例如[3])認為對于稀疏矩陣乘法,將稀疏矩陣聚類為相對密集的子矩陣會有更佳的性能。在不久的將來會利用類似的方法來進行非均勻深度學習架構的自動構建,這樣的想法似乎并不牽強。

Inception架構開始是作為案例研究,用于評估一個復雜網絡拓撲構建算法的假設輸出,該算法試圖近似[2]中所示的視覺網絡的稀疏結構,并通過密集的、容易獲得的組件來覆蓋假設結果。盡管是一個非常投機的事情,但與基于[12]的參考網絡相比,早期可以觀測到適度的收益。隨著一點點調整加寬差距,作為[6]和[5]的基礎網絡,Inception被證明在定位上下文和目標檢測中尤其有用。有趣的是,雖然大多數最初的架構選擇已被質疑并分離開進行全面測試,但結果證明它們是局部最優的。然而必須謹慎:盡管Inception架構在計算機上領域取得成功,但這是否可以歸因于構建其架構的指導原則仍是有疑問的。確保這一點將需要更徹底的分析和驗證。

4. 架構細節

Inception架構的主要想法是考慮怎樣近似卷積視覺網絡的最優稀疏結構并用容易獲得的密集組件進行覆蓋。注意假設轉換不變性,這意味著我們的網絡將以卷積構建塊為基礎。我們所需要做的是找到最優的局部構造并在空間上重復它。Arora等人[2]提出了一個層次結構,其中應該分析最后一層的相關統計并將它們聚集成具有高相關性的單元組。這些聚類形成了下一層的單元并與前一層的單元連接。我們假設較早層的每個單元都對應輸入層的某些區域,并且這些單元被分成濾波器組。在較低的層(接近輸入的層)相關單元集中在局部區域。因此,如[12]所示,我們最終會有許多聚類集中在單個區域,它們可以通過下一層的1×1卷積層覆蓋。然而也可以預期,將存在更小數目的在更大空間上擴展的聚類,其可以被更大塊上的卷積覆蓋,在越來越大的區域上塊的數量將會下降。為了避免塊校正的問題,目前Inception架構形式的濾波器的尺寸僅限于1×1、3×3、5×5,這個決定更多的是基于便易性而不是必要性。這也意味著提出的架構是所有這些層的組合,其輸出濾波器組連接成單個輸出向量形成了下一階段的輸入。另外,由于池化操作對于目前卷積網絡的成功至關重要,因此建議在每個這樣的階段添加一個替代的并行池化路徑應該也應該具有額外的有益效果(看圖2(a))。


由于這些“Inception模塊”在彼此的頂部堆疊,其輸出相關統計必然有變化:由于較高層會捕獲較高的抽象特征,其空間集中度預計會減少。這表明隨著轉移到更高層,3×3和5×5卷積的比例應該會增加。

上述模塊的一個大問題是在具有大量濾波器的卷積層之上,即使適量的5×5卷積也可能是非常昂貴的,至少在這種樸素形式中有這個問題。一旦池化單元添加到混合中,這個問題甚至會變得更明顯:輸出濾波器的數量等于前一階段濾波器的數量。池化層輸出和卷積層輸出的合并會導致這一階段到下一階段輸出數量不可避免的增加。雖然這種架構可能會覆蓋最優稀疏結構,但它會非常低效,導致在幾個階段內計算量爆炸。

這導致了Inception架構的第二個想法:在計算要求會增加太多的地方,明智地減少維度。這是基于嵌入的成功:甚至低維嵌入可能包含大量關于較大圖像塊的信息。然而嵌入以密集、壓縮形式表示信息并且壓縮信息更難處理。這種表示應該在大多數地方保持稀疏(根據[2]中條件的要求】)并且僅在它們必須匯總時才壓縮信號。也就是說,在昂貴的3×3和5×5卷積之前,1×1卷積用來計算降維。除了用來降維之外,它們也包括使用線性修正單元使其兩用。最終的結果如圖2(b)所示。

通常,Inception網絡是一個由上述類型的模塊互相堆疊組成的網絡,偶爾會有步長為2的最大池化層將網絡分辨率減半。出于技術原因(訓練過程中內存效率),只在更高層開始使用Inception模塊而在更低層仍保持傳統的卷積形式似乎是有益的。這不是絕對必要的,只是反映了我們目前實現中的一些基礎結構效率低下。

該架構的一個有用的方面是它允許顯著增加每個階段的單元數量,而不會在后面的階段出現計算復雜度不受控制的爆炸。這是在尺寸較大的塊進行昂貴的卷積之前通過普遍使用降維實現的。此外,設計遵循了實踐直覺,即視覺信息應該在不同的尺度上處理然后聚合,為的是下一階段可以從不同尺度同時抽象特征。

計算資源的改善使用允許增加每個階段的寬度和階段的數量,而不會陷入計算困境。可以利用Inception架構創建略差一些但計算成本更低的版本。我們發現所有可用的控制允許計算資源的受控平衡,導致網絡比沒有Inception結構的類似執行網絡快3—10倍,但是在這一點上需要仔細的手動設計。

5. GoogLeNet

通過“GoogLeNet”這個名字,我們提到了在ILSVRC 2014競賽的提交中使用的Inception架構的特例。我們也使用了一個稍微優質的更深更寬的Inception網絡,但將其加入到組合中似乎只稍微提高了結果。我們忽略了該網絡的細節,因為經驗證據表明確切架構的參數影響相對較小。表1說明了競賽中使用的最常見的Inception實例。這個網絡(用不同的圖像塊采樣方法訓練的)使用了我們組合中7個模型中的6個。


所有的卷積都使用了修正線性激活,包括Inception模塊內部的卷積。在我們的網絡中感受野是在均值為0的RGB顏色空間中,大小是224×224。“#3×3 reduce”和“#5×5 reduce”表示在3×3和5×5卷積之前,降維層使用的1×1濾波器的數量。在pool proj列可以看到內置的最大池化之后,投影層中1×1濾波器的數量。所有的這些降維/投影層也都使用了線性修正激活。

網絡的設計考慮了計算效率和實用性,因此推斷可以單獨的設備上運行,甚至包括那些計算資源有限的設備,尤其是低內存占用的設備。當只計算有參數的層時,網絡有22層(如果我們也計算池化層是27層)。構建網絡的全部層(獨立構建塊)的數目大約是100。確切的數量取決于機器學習基礎設施對層的計算方式。分類器之前的平均池化是基于[12]的,盡管我們的實現有一個額外的線性層。線性層使我們的網絡能很容易地適應其它的標簽集,但它主要是為了方便使用,我們不期望它有重大的影響。我們發現從全連接層變為平均池化,提高了大約top-1 %0.6的準確率,然而即使在移除了全連接層之后,丟失的使用還是必不可少的。

給定深度相對較大的網絡,有效傳播梯度反向通過所有層的能力是一個問題。在這個任務上,更淺網絡的強大性能表明網絡中部層產生的特征應該是非常有識別力的。通過將輔助分類器添加到這些中間層,可以期望較低階段分類器的判別力。這被認為是在提供正則化的同時克服梯度消失問題。這些分類器采用較小卷積網絡的形式,放置在Inception (4a)和Inception (4b)模塊的輸出之上。在訓練期間,它們的損失以折扣權重(輔助分類器損失的權重是0.3)加到網絡的整個損失上。在推斷時,這些輔助網絡被丟棄。后面的控制實驗表明輔助網絡的影響相對較小(約0.5),只需要其中一個就能取得同樣的效果。

包括輔助分類器在內的附加網絡的具體結構如下:

一個濾波器大小5×5,步長為3的平均池化層,導致(4a)階段的輸出為4×4×512,(4d)的輸出為4×4×528。

具有128個濾波器的1×1卷積,用于降維和修正線性激活。

一個全連接層,具有1024個單元和修正線性激活。

丟棄70%輸出的丟棄層。

使用帶有softmax損失的線性層作為分類器(作為主分類器預測同樣的1000類,但在推斷時移除)。

最終的網絡模型圖如圖3所示。


圖3:含有的所有結構的GoogLeNet網絡。

6. 訓練方法

GoogLeNet網絡使用DistBelief[4]分布式機器學習系統進行訓練,該系統使用適量的模型和數據并行。盡管我們僅使用一個基于CPU的實現,但粗略的估計表明GoogLeNet網絡可以用更少的高端GPU在一周之內訓練到收斂,主要的限制是內存使用。我們的訓練使用異步隨機梯度下降,動量參數為0.9[17],固定的學習率計劃(每8次遍歷下降學習率4%)。Polyak平均[13]在推斷時用來創建最終的模型。

圖像采樣方法在過去幾個月的競賽中發生了重大變化,并且已收斂的模型在其他選項上進行了訓練,有時還結合著超參數的改變,例如丟棄和學習率。因此,很難對訓練這些網絡的最有效的單一方式給出明確指導。讓事情更復雜的是,受[8]的啟發,一些模型主要是在相對較小的裁剪圖像進行訓練,其它模型主要是在相對較大的裁剪圖像上進行訓練。然而,一個經過驗證的方案在競賽后工作地很好,包括各種尺寸的圖像塊的采樣,它的尺寸均勻分布在圖像區域的8%——100%之間,方向角限制為[34,43][34,43]之間。另外,我們發現Andrew Howard[8]的光度扭曲對于克服訓練數據成像條件的過擬合是有用的。

7. ILSVRC 2014分類挑戰賽設置和結果

ILSVRC 2014分類挑戰賽包括將圖像分類到ImageNet層級中1000個葉子結點類別的任務。訓練圖像大約有120萬張,驗證圖像有5萬張,測試圖像有10萬張。每一張圖像與一個實際類別相關聯,性能度量基于分類器預測的最高分。通常報告兩個數字:top-1準確率,比較實際類別和第一個預測類別,top-5錯誤率,比較實際類別與前5個預測類別:如果圖像實際類別在top-5中,則認為圖像分類正確,不管它在top-5中的排名。挑戰賽使用top-5錯誤率來進行排名。

我們參加競賽時沒有使用外部數據來訓練。除了本文中前面提到的訓練技術之外,我們在獲得更高性能的測試中采用了一系列技巧,描述如下。

我們獨立訓練了7個版本的相同的GoogLeNet模型(包括一個更廣泛的版本),并用它們進行了整體預測。這些模型的訓練具有相同的初始化(甚至具有相同的初始權重,由于監督)和學習率策略。它們僅在采樣方法和隨機輸入圖像順序方面不同。

在測試中,我們采用比Krizhevsky等人[9]更積極的裁剪方法。具體來說,我們將圖像歸一化為四個尺度,其中較短維度(高度或寬度)分別為256,288,320和352,取這些歸一化的圖像的左,中,右方塊(在肖像圖片中,我們采用頂部,中心和底部方塊)。對于每個方塊,我們將采用4個角以及中心224×224裁剪圖像以及方塊尺寸歸一化為224×224,以及它們的鏡像版本。這導致每張圖像會得到4×3×6×2 = 144的裁剪圖像。前一年的輸入中,Andrew Howard[8]采用了類似的方法,經過我們實證驗證,其方法略差于我們提出的方案。我們注意到,在實際應用中,這種積極裁剪可能是不必要的,因為存在合理數量的裁剪圖像后,更多裁剪圖像的好處會變得很微小(正如我們后面展示的那樣)。

softmax概率在多個裁剪圖像上和所有單個分類器上進行平均,然后獲得最終預測。在我們的實驗中,我們分析了驗證數據的替代方法,例如裁剪圖像上的最大池化和分類器的平均,但是它們比簡單平均的性能略遜。

在本文的其余部分,我們分析了有助于最終提交整體性能的多個因素。

競賽中我們的最終提交在驗證集和測試集上得到了top-5 6.67%的錯誤率,在其它的參與者中排名第一。與2012年的SuperVision方法相比相對減少了56.5%,與前一年的最佳方法(Clarifai)相比相對減少了約40%,這兩種方法都使用了外部數據訓練分類器。表2顯示了過去三年中一些表現最好的方法的統計。


我們也分析報告了多種測試選擇的性能,當預測圖像時通過改變表3中使用的模型數目和裁剪圖像數目。


8. ILSVRC 2014檢測挑戰賽設置和結果

ILSVRC檢測任務是為了在200個可能的類別中生成圖像中目標的邊界框。如果檢測到的對象匹配的它們實際類別并且它們的邊界框重疊至少50%(使用Jaccard索引),則將檢測到的對象記為正確。無關的檢測記為假陽性且被懲罰。與分類任務相反,每張圖像可能包含多個對象或沒有對象,并且它們的尺度可能是變化的。報告的結果使用平均精度均值(mAP)。GoogLeNet檢測采用的方法類似于R-CNN[6],但用Inception模塊作為區域分類器進行了增強。此外,為了更高的目標邊界框召回率,通過選擇搜索[20]方法和多箱[5]預測相結合改進了區域生成步驟。為了減少假陽性的數量,超分辨率的尺寸增加了2倍。這將選擇搜索算法的區域生成減少了一半。我們總共補充了200個來自多盒結果的區域生成,大約60%的區域生成用于[6],同時將覆蓋率從92%提高到93%。減少區域生成的數量,增加覆蓋率的整體影響是對于單個模型的情況平均精度均值增加了1%。最后,等分類單個區域時,我們使用了6個GoogLeNets的組合。這導致準確率從40%提高到43.9%。注意,與R-CNN相反,由于缺少時間我們沒有使用邊界框回歸。

我們首先報告了最好檢測結果,并顯示了從第一版檢測任務以來的進展。與2013年的結果相比,準確率幾乎翻了一倍。所有表現最好的團隊都使用了卷積網絡。我們在表4中報告了官方的分數和每個隊伍的常見策略:使用外部數據、集成模型或上下文模型。外部數據通常是ILSVRC12的分類數據,用來預訓練模型,后面在檢測數據集上進行改善。一些團隊也提到使用定位數據。由于定位任務的邊界框很大一部分不在檢測數據集中,所以可以用該數據預訓練一般的邊界框回歸器,這與分類預訓練的方式相同。GoogLeNet輸入沒有使用定位數據進行預訓練。


在表5中,我們僅比較了單個模型的結果。最好性能模型是Deep Insight的,令人驚訝的是3個模型的集合僅提高了0.3個點,而GoogLeNet在模型集成時明顯獲得了更好的結果。


9. 總結

我們的結果取得了堅實的證據,即通過易獲得的密集構造塊來近似期望的最優稀疏結果是改善計算機視覺神經網絡的一種可行方法。相比于較淺且較窄的架構,這個方法的主要優勢是在計算需求適度增加的情況下有顯著的質量收益。

我們的目標檢測工作雖然沒有利用上下文,也沒有執行邊界框回歸,但仍然具有競爭力,這進一步顯示了Inception架構優勢的證據。

對于分類和檢測,預期通過更昂貴的類似深度和寬度的非Inception類型網絡可以實現類似質量的結果。然而,我們的方法取得了可靠的證據,即轉向更稀疏的結構一般來說是可行有用的想法。這表明未來的工作將在[2]的基礎上以自動化方式創建更稀疏更精細的結構,以及將Inception架構的思考應用到其他領域。

參考文獻

[1] Know your meme: We need to go deeper.?http://knowyourmeme.com/memes/we-need-to-go-deeper. Accessed: 2014-09-15.

[2] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR, abs/1310.6343, 2013.

[3] U. V. C ?atalyu ?rek, C. Aykanat, and B. Uc ?ar. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, Feb. 2010.

[4] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232–1240. 2012.

[5] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[6] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.

[7] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/1207.0580, 2012.

[8] A. G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013.

[9] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.

[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551, Dec. 1989.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

[12] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim., 30(4):838–855, July 1992.

[14] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.

[15] T. Serre, L. Wolf, S. M. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach. Intell., 29(3):411–426, 2007.

[16] F. Song and J. Dongarra. Scaling up matrix computations on shared-memory manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM Interna- tional Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.

[17] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton. On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceed- ings, pages 1139–1147. JMLR.org, 2013.

[18] C.Szegedy,A.Toshev,andD.Erhan.Deep neural networks for object detection. In C. J. C. Burges, L. Bottou, Z. Ghahramani, and K. Q. Weinberger, editors, NIPS, pages 2553–2561, 2013.

[19] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. CoRR, abs/1312.4659, 2013.

[20] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages 1879–1886, Washington, DC, USA, 2011. IEEE Computer Society.

[21] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In D. J. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, editors, ECCV, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer, 2014.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容