一.論文概述
Alex Krizhevsky、Ilya
Sutskever和Geoffrey Hinton訓(xùn)練了一個(gè)大型深度卷積神經(jīng)網(wǎng)絡(luò)將ImageNet LSVRC-2010數(shù)據(jù)集中的120萬(wàn)張高清圖片分類到1000個(gè)不同類別中。該分類網(wǎng)絡(luò)擁有六千萬(wàn)的參數(shù)以及65萬(wàn)個(gè)神經(jīng)元,共五個(gè)卷積層,其中一些卷積層后面跟著最大池化層,并且網(wǎng)絡(luò)利用softmax函數(shù)實(shí)現(xiàn)了1000類分類的最后三個(gè)全連接層。同時(shí)為了使訓(xùn)練速度更快,利用高效的GPU實(shí)現(xiàn)卷積操作;為減少過(guò)擬合,采用了Dropout的正則化方法。并通過(guò)該模型的變體在ILSVRC-2012的競(jìng)賽中取得了優(yōu)異的成績(jī)。
二.主要觀點(diǎn)
通過(guò)收集更大的數(shù)據(jù)集,學(xué)習(xí)訓(xùn)練更大的模型,并用更好的技術(shù)來(lái)避免過(guò)擬合。該卷積神經(jīng)網(wǎng)絡(luò)包括了5個(gè)卷積層和3個(gè)全連接層,去掉任意一個(gè)卷積層都會(huì)使表現(xiàn)更差。同時(shí),更快的GPU以及更大的數(shù)據(jù)集均可以使結(jié)果更好。
三.重要方法
1. 數(shù)據(jù)集
ImageNet是由大概22000個(gè)類別超過(guò)1500萬(wàn)章帶標(biāo)簽的高分辨率圖像組成的數(shù)據(jù)集。通過(guò)對(duì)圖片的采樣,獲得固定大小的256X256的分辨率。
2. 模型體系結(jié)構(gòu)
下圖即為網(wǎng)絡(luò)架構(gòu),五個(gè)卷積層和三個(gè)全鏈接層。如下圖所示
?2.1 ReLU非線性處理
???????????使用Nair和Hinton的ReLUs神經(jīng)網(wǎng)絡(luò),此神經(jīng)網(wǎng)絡(luò)的運(yùn)行速度按照?qǐng)D示比標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)要快3到5倍。在大型數(shù)據(jù)集的處理表現(xiàn)上,ReLU的快速處理性能會(huì)使分類事半功倍。
2.2多GPU并行訓(xùn)練
以GTX
580作為實(shí)驗(yàn)工具進(jìn)行并行化訓(xùn)練,由于訓(xùn)練樣本過(guò)大,可將該神經(jīng)網(wǎng)絡(luò)分布在兩個(gè)GPU上,將各一半的網(wǎng)絡(luò)核放在每個(gè)GPU上,這種結(jié)構(gòu)網(wǎng)絡(luò)比單GPU網(wǎng)絡(luò)所需的訓(xùn)練時(shí)間要少。
2.3局部反應(yīng)歸一化
ReLUs有一個(gè)屬性,無(wú)需對(duì)輸入數(shù)據(jù)進(jìn)行歸一化來(lái)避免飽和。這種反應(yīng)歸一化通過(guò)一種模仿生物神經(jīng)元的橫向抑制,讓神經(jīng)元利用不同核心程序進(jìn)行計(jì)算的產(chǎn)生競(jìng)爭(zhēng),從而降低錯(cuò)誤率。對(duì)于位置(x,y)上實(shí)行ReLU訓(xùn)練的具體公式為:
2.4重疊池化
CNN中的池化層對(duì)同一核心程序映射中相鄰的神經(jīng)元組的輸出求和。通過(guò)重疊池化能讓模型更難過(guò)擬合。
2.5整體結(jié)構(gòu)
介紹了CNN的整體結(jié)構(gòu),每一層的輸入輸出及各層核心程序與各層的連接。
3. 減少過(guò)擬合
AlexNet 使用了 2 種形式的數(shù)據(jù)擴(kuò)充,兩種方法都讓由原始圖片產(chǎn)生的變換圖片的過(guò)程,僅帶著幾乎可以忽略不計(jì)的計(jì)算量,所以被變換的圖片不需要被存在磁盤上。AlexNet 使用的變換圖片是在 GPU 正在訓(xùn)練前一批圖片時(shí),由 CPU 上的 Python 代碼產(chǎn)生的,所以這些數(shù)據(jù)擴(kuò)充的策略實(shí)際上是可以看做不產(chǎn)生計(jì)算量的。
3.1 數(shù)據(jù)集放大
第一種數(shù)據(jù)擴(kuò)充的方法由生成圖片平移和水平反射組成,作者通過(guò)在 256*256 尺寸的圖片上隨機(jī)提取 224*224 的小塊,然后在這些被提取的小塊上訓(xùn)練網(wǎng)絡(luò)。即使結(jié)果訓(xùn)練樣例是高度內(nèi)部依賴的,這個(gè)辦法將訓(xùn)練集的尺寸增加了 2048 倍。沒有這個(gè)策略,AlexNet 一定會(huì)產(chǎn)生過(guò)擬合,這將迫使作者使用更小的網(wǎng)絡(luò),從而影響訓(xùn)練效果。第二個(gè)策略是修改訓(xùn)練圖片中的 RGB 通道的強(qiáng)度。AlexNet 對(duì)每一個(gè)訓(xùn)練圖片將主要組成部分的倍數(shù)加上按一定比例的相應(yīng)的特征值乘上一個(gè)從一個(gè)均值為 0,標(biāo)準(zhǔn)差為 0.1 的高斯函數(shù)中提取的隨機(jī)參數(shù)。這個(gè)策略大致上得到了原始圖片的一個(gè)重要屬性,就是物質(zhì)在照明強(qiáng)度和顏色上的特性是不會(huì)改變的。這個(gè)策略減少了大約 1%的 top-1 錯(cuò)誤率。
3.2Dropout
AlexNet 也使用了“dropout”技術(shù)來(lái)實(shí)現(xiàn)模型合并,即對(duì)每一個(gè)隱層神經(jīng)元以 0.5 的概率將其設(shè)置為 0,即“被剔除”。這種“被剔除”的神經(jīng)元不會(huì)對(duì)前向傳播產(chǎn)生作用,也不會(huì)參加反向傳播。所以,每次輸入,神經(jīng)元網(wǎng)絡(luò)采樣得到的是不同結(jié)構(gòu),但是所有的結(jié)構(gòu)共享權(quán)重。這個(gè)技術(shù)減少了神經(jīng)元共適應(yīng)性的復(fù)雜性,因?yàn)橐粋€(gè)神經(jīng)元不能依賴于特別的一個(gè)其他的神經(jīng)元。因此,這個(gè)技術(shù)使其學(xué)習(xí)到更加健壯的特征,使其在與許多不同的其他神經(jīng)元的隨機(jī)子集連接時(shí)更加有效。在測(cè)試階段,AlexNet 使用了全部神經(jīng)元,但是將它們的輸出乘上了 0.5,這是一個(gè)合理的近似去得到由多指數(shù) dropout 網(wǎng)絡(luò)產(chǎn)生的預(yù)測(cè)分配性的幾何平均值。Dropout 技術(shù)將需要覆蓋的迭代次數(shù)進(jìn)行了翻倍。
四.思考與啟發(fā)
綜上所述,AlexNet 作為圖像深層卷積網(wǎng)絡(luò)的開山之作有其獨(dú)到的見解及不可取代的顯著成果,其研究問題及解決問題的思想方法及實(shí)踐方法都值得我們?nèi)W(xué)習(xí)和借鑒。
?