本文轉自:http://www.jixuweifeng.com/2016/07/24/AlexNet%E8%AE%BA%E6%96%87%E7%BF%BB%E8%AF%91/
ImageNet Classification with Deep Convolution Neural Network在2012年的ImageNet挑戰賽上大顯神威,以絕對優勢奪得冠軍,是卷積神經網絡的開山之作,引領了人工智能的新一輪發展。懷著對經典的無限景仰,小心翼翼地翻譯了一下這篇論文,以加深理解。論文地址:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
ImageNet Classification with Deep Convolution Neural Network
Abstract
我們訓練了一個大型的深層卷積神經網絡來將ImageNet LSVRC-2010挑戰賽上的120萬張高清圖片分為1000類。在測試數據集上,我們實現了top-1 top-5的錯誤率 37.5% 和 17.0%,這比之前最好的結果都還要好很多。這個網絡有6000萬參數和65萬個神經元,包含5個卷積層,一些卷積層后面連接有max-pooling層,還有三層全連接層后面接有1000-way的softmax.為了加快訓練速度,我們使用了非飽和神經元和一個對卷積操作非常有效的GPU。為了減少全連接層的過擬合問題,我們使用了最近開發的正則化方法“dropout”,它被證明是非常有效的。在ILSVRC-2012比賽中,我們又輸入了這個模型的一個變形,在top-5的的測試中錯誤率達到了15.3%,相比之下,第二名錯誤率為26.2%.
1 Introduction
當前的物體識別都必不可少地使用了機器學習方法。為了提高這些方法,我們可以收集更大的數據集,學習更多有效的模型,使用更好的技巧來防止過擬合。直到現在,有標記的圖像數據集是相當小的—大約數萬張(如NORB [16], Caltech-101/256 [8, 9], and CIFAR-10/100 [12])。簡單的識別任務用這些大小的數據集能很好的解決,尤其當它們被標簽–保留轉換增強了以后。例如,最近在MNIST數字識別任務中的錯誤率(<0.3%)達到了人類水平。但是,在真實物體數據集中卻表現出了相當大的變化,所以,為了學習識別它們,使用更大的數據集是非常必要的。的確,小規模圖像數據集的缺點已經被廣泛地發現了,但是,收集百萬張有標記的圖片數據集最近才變成了可能。新的更大的數據集包括LabelMe,包含幾十萬張完全分割的圖片,還有Image-net,包含150萬超過2200種標記的高清圖片。
為了從百萬張圖片中學習上千種物體,我們需要一個具有強大學習能力的模型。然而,物體識別任務的巨大復雜性意味著這個問題甚至不能被ImagenNet這么大的數據集明確規定,所以,我們的模型可能也有許多先驗知識來彌補我們沒有的所有數據。卷積神經網絡構建了一個這種類型的模型。它們的能力可以通過改變它們的深度和廣度來控制,而且它們也可以作出有關圖像性質的強壯和最大準確率的假設。(即,統計數據的穩定性和像素依賴的局部性).因此,相比于具有同樣規模的標準前饋神經網絡,CNNs有更少的連接和參數,所以它們是更容易訓練的,而它們理論上的最佳性能可能僅僅差了一點點。
盡管CNN有非常吸引人的品質,以及它自身的結構的相對較高的效率,但是應用到大規模高清圖像上還是非常昂貴的。幸運的是,現在的GPU和實現高度優化的2D卷積的配合是足夠強大的,可以促進大規模CNN的訓練,并且最近像ImageNet這樣的數據集包含了足夠的被標記例子來訓練出沒有嚴重過擬合的模型。
這篇論文具體的貢獻如下:我們訓練了一個最大的卷積神經網絡來標記ILSVRC-2010 和 ILSVRC-2012比賽的數據集,并且實現了到目前為止在這些數據集上的最好結果。我們寫了一個實現2D卷積的高度優化的GPU和其他的一些公開的訓練卷積神經網絡的固有操作。我們的網絡包含大量新的和不尋常特點,這些特點提高了網絡的效率并且減少了訓練時間,詳細介紹在第三部分。我們的網絡規模解決了過擬合這個重要問題,即使有1200萬被標記的訓練圖片,我們使用了大量有效的技巧來防止過擬合,這將在第四部分詳細介紹。我們最終的網絡包含5個卷積層和三個全連接層,而且這個深度似乎是非常重要的:我們發現移除任何一個卷積層(每層包含的參數不足整個模型的1%)都會導致非常差的效果。
最后,網絡的大小主要由當前GPU的可用內存數量和我們所能忍受的訓練時間所限制。我們的網絡在兩塊3G的GTX 580GPU上訓練了五六天的時間。所有的實驗表明,我們的結果還能通過更快的GPU和更大的可用數據集來進一步提高。
2 The Dataset
ImageNet是一個超過1500萬張包含22000種類的被標記的高清圖像數據集。這些圖片收集自web,使用Ama-zon’s Mechanical Turk的工具箱來人工標記。從2010年開始,作為Pascal視覺對象挑戰賽的一部分,一年一度的ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)開始舉行。ILSVRC使用ImageNet的子集,包含1000種圖像,每種包含1000張圖片。總共有120萬張訓練圖片,5萬張驗證圖片和15萬張測試圖片。
ILSVRC-2010是唯一的測試標簽可用的版本,所以我們用它來做大量的實驗。當然我們也使我們的模型參加ILSVRC-2012比賽,在第六部分我們也會展示這一版數據集上的結果,其測試標簽不可用。在ImageNet上,通常報告兩類錯誤率:top-1和top-5,top5錯誤率表示測試圖片的標簽不在模型所認為的五種標簽之內。
ImageNet包含的圖片分辨率是變化的,然而我們的系統需要的輸入維數是一個常量。因此,我們采樣這些圖片一個固定的像素值256X256。給定一張矩形的圖片,我們首先重置這張圖片的短邊長度為256,然后從得到的圖片中裁剪出中心的256X256。除了從每一個像素中減去平均值外,我們沒有做任何其他的操作。所以,我們在像素的原始RGB值(裁剪出的中心部分)上訓練我們的網絡。
3 The Architecture
我們的網絡結構總結在圖2中。它包含8個學習層—–5個卷積層和3個全連接層。接下來,介紹一下我們這個網絡的神奇和不尋常的特點。3.1–3.4節根據我們對它們的重要性的估計來排序,最重要的在第一個。
3.1 Relu Nonlinearity
一般的方法是將神經元的輸出作為函數f(x)=tanh(x) 或f(x)=(1+e-x)-1的輸入x 。依據梯度下降的時間,這些飽和非線性函數是比不飽和非線性函數f(x)=max(0,x)更慢的。根據Nair和Hinton,我們參考非線性的神經元Rectified Linear Units (ReLUs).用RELUs訓練的深層卷積神經網絡比用tanh等價的神經網絡快很多倍。如圖1,顯示了一個特別的四層卷積神經網絡在CIFAR-10數據集上達到25%的錯誤率所需要的迭代次數。這個圖說明如果我們使用了飽和的神經元模型,我們將不能使用這么大規模的神經網絡來做這個實驗。
我們不是第一個考慮在CNNs中替換傳統神經模型的。例如,Jarrett et al. [11]宣稱非線性函數f(x)=|tanh(x)|在Caltech-101數據集上對比度歸一化后局部平均池化的效果是非常好的。然而,在這個數據集上首要的問題是防止過擬合,所以,它們觀察到的結果是我們我們報告的通過使用Relus來獲得加速擬合訓練集能力的結果是不一樣的。更快的學習對大數據集上的大模型有非常重大的影響。
[圖片上傳中...(image-1ad661-1511097214574-8)]
Figure 1: 使用ReLus(實線)的四層卷積神經網絡在CIFAR-10數據集上達到25%的訓練錯誤率,比使用tanh(虛線)神經元的等效網絡快了6倍。每一個網絡的學習率被獨立地選擇使得訓練盡可能的快。沒有使用任何形式的正則化。在這里表現的結果隨著網絡結構的不同而變化,但是,使用ReLus的網絡一貫地比使用飽和神經元的等效網絡快好幾倍。
3.2 Training on Multiple GPUs
一個GTX580 GPU僅僅有3GB的內存,這限制了在其上訓練的網絡的最大規模。事實是120萬訓練樣本才足以訓練網絡,這太大了不適合在一個GPU上訓練。因此,我們將網絡分布在兩個GPU上。當前的GPU非常適合跨GPU并行化,因為它們可以直接對另一塊GPU進行讀寫操作,而不需要通過主機內存。我們采用的并行機制基本上每塊GPU設置了一半的核函數(神經元),一個額外的小技巧:GPU 的交流僅僅在某些層。意思是說,例如,第三層神經元的輸入來自第二層的所有神經元。但是,第四層的神經元僅僅來自同一塊GPU上第三層的神經元。選擇這種連接方式對于交叉驗證是一個問題,但是這允許我們精確地調整連接的數量直到計算數值是一個可以接受的值。
最終的結構是和Cire ?sanet al. [5] 所采用的“柱狀”CNN有點相似的,只是我們的柱狀不是相互獨立的(如圖2)。這個機制分別減小了我們的top1錯誤率1.7% 和 top5錯誤率1.2%,和每個卷積層許多神經元在同一塊GPU上訓練像比較起來,兩塊GPU網絡比一塊GPU花費更少的時間。
3.3 Local Response Normalization
Relus 有一個良好的特性,它不要求輸入歸一化來防止飽和。如果至少一些訓練數據產生了一個積極的輸入給Relus,那個神經元將開始學習。然而,我們還發現接下來的局部歸一化機制促進了泛化。用a表示通過核函數i在神經元(x,y)處計算得到的激活值,然后應用Relu非線性變換,響應歸一化b通過表達式給出:
[圖片上傳中...(image-9bd424-1511097214574-7)]
在n個相鄰的核函數的同一空間位置求和,N是每層總的核函數數量。核函數的順序在開始訓練之前都是任意的而且是確定的。受真實神經元的啟發,響應歸一化的順序實現了單側抑制的形式,為使用不同核函數計算的神經元輸出創造了競爭。常量k,n,阿爾法,貝塔,是超參數,它的值使用一個驗證集來確定,我們使k=2,n=5,阿爾法=10^-4,貝塔=0.75.我們在一些層應用ReLu非線性變換之后,采用這個歸一化。
這個機制和局部常量歸一化有一些相似。但是我們的更準確的說是“亮度歸一化”,因為我們沒有減去平均值。響應歸一化將top-1和top-5錯誤率分別減少了1.4%和1.2%.我們也在CIFAR-10 數據集上驗證了這個機制的有效性:一個四層的CNN不用歸一化達到了13%的測試錯誤率,用了之后為11%.
3.4 Overlapping Pooling
在CNN中池化層總結了同一個核函數下相鄰神經元的輸出。傳統的,相鄰池化單元的總結不重疊。為了更精確,一個池化層可以被認為是由相鄰S個像素的池化網格所組成,每個總結是池化單元中心的鄰近z X z單元。如果我們假設s=z,我們獲得CNN中傳統的局部池化。如果設s<z,我們獲得重疊池化。這是我們的網絡里使用的參數,s=2,z=3。這個機制減小了top1錯誤率0.4%,top5錯誤率0.3%,和不重疊機制s=2,z=2比較起來,它減小了等效面積的輸出。我們觀察并發現,在訓練有重疊池化的模型中擬合是有一點困難的。
3.5 Overall Architecture
現在我們準備好介紹我們CNN的整體架構了。像第二節描繪的那樣,網絡包含8層權重,前5層是卷積層和 3層全鏈接層。最后一層全連接層的輸出傳給一個1000的softmax函數,產生一個1000種標簽的分類。
[圖片上傳中...(image-a64617-1511097214573-6)]
第2,4,5卷積層的核函數僅僅和GPU上前一層的那些映射結果相連接。第三層卷積層和第二層所有的映射結果相連接。全連接層的神經元和前一層所有的神經元相連。響應歸一化層連接在第1,2卷積層后面。最大池化層,如第3,4節描述的那樣,連接在響應歸一化層和第5卷基層后面。ReLu非線性函數應用在每一個卷積層和全連接層后面。
第1個卷積層用96個11X11X3的濾波器對224X224X3的圖像以步長為4做濾波。第2層卷積層以第1層卷積層(響應歸一化和池化之后)的結果為輸入,用256個5X5X48的濾波器做濾波。第3,4,5卷積層互相連接沒有任何池化,歸一的干擾。第三層卷積層有384個3X3X256 的核函數連接在第二層卷積層歸一化,池化之后。第四層卷積層有384個3X3X192核函數連接,第五層有256個3x3X192的核函數連接,全連接層各有4096個神經元。
4 Reducing Overfitting
我們的神經網絡結構有6000萬參數。盡管ILSVRC的1000種使得每一個訓練樣例增加了10倍的限制,從圖像到標簽,這說明不考慮過擬合來學習這么多的參數是不足的。下面,我們介紹兩種主要的防止過擬合的方法。
4.1 Data Augmentation
在圖像數據上最容易也是最常見的減少過擬合的方法是通過標簽保存轉換人工地增大數據集(e.g., [25, 4, 5])。我們采用兩種不同形式的數據增強,兩者都允許原始圖像經過一些運算來產生轉換后的圖像,所以轉換后的圖像不必存儲在磁盤上。我們在實際操作中,轉換的圖片通過python代碼在CPU上產生,同時GPU在圖像的前一個batch上訓練。所以這些數據增強機制實際上是計算自由的。
第一個數據增強的方式由圖片轉換和水平翻轉組成。我們實現它通過在256X256的圖片上隨機提取224x224的patches(和它們的水平鏡像)并且在這些提取出來的Patches上訓練我們的網絡。這使我們的訓練集規模增加了2048,當然,訓練樣本的結果是高度相互依存的。沒有這個方案,我們的網絡會遭受大量的過擬合,那將會迫使我們使用更小的網絡。在測試階段,網絡會做一個預測通過提取5個224X224的patches(四個角的patches和中心patches)和它們的水平鏡像(因此一共10個patches),并且通過網絡的softmax層平均這10個patches上的預測。
第2種數據增強的方式是改變訓練圖片上RGB通道的強度。特別的,我們在ImageNet訓練集上對RGB像素值做PCA操作。對每一張訓練圖片,我們成倍的增加已有的主成分,比例大小為對應特征值的隨機變量,符合0均值,0.1標準差的高斯分布。
[圖片上傳中...(image-14e8c2-1511097214573-5)]
p和入是RGB像素值3X3協方差矩陣的特征向量和特征值,阿爾法是上述的隨機變量。每個阿爾法只描述一次一張特定圖片的所有像素值,直到這張圖片被再次訓練,每個點再次被描繪。這個方案大概捕捉了自然圖像的重要性質,也就是說,對象標識對于光照強度和顏色的變化是不變的。這個方案減少了top-1錯誤率1%.
4.2 Dropout
結合許多不同模型的預測是減小測試錯誤非常成功的方式,但是這對于大的神經網絡來說似乎代價太大了,需要花費好多天來訓練。然而,這有一個聯合模型的非常有效的版本僅僅花費兩天訓練。最新引進的技術,“Dropout”,以50%的概率對每一個隱含層的輸出置0。被“Dropout”的這些神經元對前向傳播不做貢獻,也不參與后向傳播。所以,每次一個輸入被展示的時候,神經網絡表現出不同的結構,但是所有這些結構共享權重。這個技術減少了神經元的復雜的互相適應,由于一個神經元不能依賴其他特定神經元的存在。因此,學習更多穩定的特征是緊迫的,這些特征對連接其他神經元的許多不同隨機集合是非常有用的。在測試階段,我們使用所有的神經元但是對它們的輸出乘以0.5,這是一個合理的近似,采取由指數丟包網絡產生的預測分布的幾何平均值。
我們在前兩層全連接層使用dropout。沒有dropout,我們的網絡表現出大量的過擬合。孤過擬合大概使達到收斂的次數增加兩倍。
5 Details of learning
[圖片上傳中...(image-d4f3e1-1511097214573-4)]
我們使用隨機梯度下降訓練我們的模型,batch大小為128,momentum0.9,權重衰減率0.0005。我們發現小的學習衰減率對于模型學習是非常重要的。換句話說,權重衰減不僅僅是正則化:它減小了模型的訓練錯誤。權重w的更新規則為:
[圖片上傳中...(image-7d6257-1511097214573-3)]
i是迭代索引,v是變量momentum,e是學習率,是第i個batch上關于W的倒數的均值。
我們以0均值,標準差0.01的高斯分布初始化每一層的權重。初始化神經元偏置值在第2,4,5卷積層和全連接層為常量1.這些初始值通過給Relus提供積極的輸入來加速了學習的早期階段。我們將其余層的神經元偏置值初始化為0。
我們對所有層使用相等的學習速率,手動地調整訓練。我們使用的這個啟發式是為了當驗證錯誤率停止提高當前學習率時以10為單位分割學習率。學習率初始化為0.01并且在終止之前減少三倍。我們用兩塊NVIDIA GTX 580 3GB GPUs.在1200萬張圖片的訓練集上訓練這個網絡90次,花費了5,6天的時間。
6 Result
[圖片上傳中...(image-9473cd-1511097214573-2)]
ILSVRC-2010的結果總結在table中。我們的網絡實現top-1和top-5測試集錯誤率37.5%和17%。 ILSVRC-2010比賽中最好的表現以平均預測值的方法是47.1%和28.2%,平均了不同特征上訓練的六個稀疏編碼模型產生的預測值,因此,以平均預測值的方法最好的結果是45.7%和25.7%,平均了兩類密集采樣特點計算出的Fisher向量訓練的兩個分類器的預測。
我們也把我們的模型用在ILSVRC-2012比賽中并且記錄結果在Table2中。因為ILSVRC-2012測試集標簽不是公開可用的,我們不能記錄我們訓練的所有模型的測試錯誤率。在這段剩下的部分,我們交換地使用驗證和測試錯誤率,因為在我們的經驗里,它們的不同超過0.1%(如圖2)。這篇文章中描述的CNN實現了top-5錯誤率18.2%。五個相似的CNN錯誤率預測的平均值是16.4%。訓練一個在最后一層pooling層額外增加第六層卷積層的CNN,來分類整個Imagenet 2011的數據集,并且微調它在ILSVRC-2012上,得到一個16.6%的錯誤率。平均兩個CNN的預測,得到一個15.3%的錯誤率。第二名達到了26.2%的錯誤率,平均了不同密集采樣特點計算出的Fisher向量訓練的七個分類器的預測。
[圖片上傳中...(image-efcb81-1511097214573-1)]
最后,我們也記錄我們在ImageNet 2009上的錯誤率,包括10184種類別和8900萬張圖片。在這個數據集上我們遵循一半圖片訓練一半圖片測試的這個慣例。因為這個沒有建立好的測試集,我們必要的分割和之前作者的分割是不同的,但是對結果沒有明顯的影響。在這個數據集上使用在pooling層添加第六層卷積層的網絡,我們獲得的top-1和top-5錯誤率為67.4%和40.9%。這個數據集上之前最好的結果是78.1%和60.9%。
6.1 Qualitative Evaluations
圖3 顯示了通過網絡的兩個數據連接層學習到的卷積核。網絡已經學習了各種頻率和方向選擇性的核和各種顏色模塊。注意兩片GPU的特別展示,3.5節描述的限制連接的結果。第1片GPU上的卷積核大部分是色彩不可知的,第2片上的大部分是特定顏色的。這種特別的情況發生在程序的每一次運行并且獨立于任意特定的隨機權重初始化。
[圖片上傳中...(image-2189cf-1511097214573-0)]
在圖4的左半部分,我們定性地評估網絡通過計算8個測試圖片top-5預測的學習。注意到偏離中心的物體,例如左上角的螨,能被網絡識別出來。標簽的top-5大都看起來很合理。例如,僅僅其他貓的類型被認為是豹貌似是合理的。在一些例子中(護柵,櫻桃),關于照片的預期焦點存在真正的歧義。
另一個探查網絡視覺知識的方法是考慮圖片在最后一個4096維隱含層的特征激活。如果兩張圖片產生的特征激活向量有一個小的歐氏距離,我們就可以說神經網絡的高層特征認為它們是相似的。圖4顯示了依據這個原理來判定測試集的5張和訓練集的6張最相似的圖片。注意到在像素層級,恢復的訓練圖片通常不是很接近第一列的圖片。例如,恢復的狗和大象在很多姿勢上都是相似的。在補充材料中我們展示了更多的測試圖片。
通過歐式距離來計算兩個4096維之間的相似度,真實值向量是低效的,但是通過訓練一個自動編碼來把這些向量壓縮到短的二進制碼可能是有效的。這可能產生一個更好的圖像恢復方法比直接應用自動編碼器到原始像素上,它沒有使用圖像標簽,因此有一個恢復圖像邊緣相似模式的趨勢,無論它們在語義上是不是相似的。
7 Discussion
我們的結果展現了一個大型的,深度卷積神經網絡是可以在一個高水平的挑戰賽數據集上使用純的監督學習來打破記錄的。值得注意的是,如果有一個卷積層被去掉了,我們的網路效率就會降低。例如,去掉任何一個中間層會導致網絡在top-1的結果損失2%。所以,深度對于實現我們的結果是非常重要的。
為了簡化我們的實驗,我們沒有使用任何無監督的預訓練即使我們希望那將會幫助我們,尤其是如果我們獲得足夠的計算能力來顯著地增加網絡的規模而不用相應地增加標簽數據。因此,我們的結果已經提高了因為我們已經使我們的網絡更大并且訓練它更久,但是為了符合人類視覺系統的行為方式我們依然有許多數量級去探索。最終,我們會在視頻序列上使用非常大型的深度卷積網絡,視頻序列的時序結構會提供非常有用的信息,靜態圖像中的缺失或不太明顯。
References
[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.image-
net.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire ?san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire ?san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale HierarchicalImage Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL
http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: Anincremental bayesian approach tested on 101 object categories. Computer Vision and Image Understand-ing, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, Cali-fornia Institute of Technology, 2007. URLhttp://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural net-works by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. InESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Hand-written digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsuper-vised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classifi-cation: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on ComputerVision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computa-tional biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H.S. Seung. Con-volutional networks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.