深度學習中的網絡正則化

在傳統機器學習中,模型的正則化是一個重要話題,而深度學習領域中,大多數模型容量大,如果沒有合適的正則化,甚至很難得到比較好的結果。

0 何為正則化?

廣義上來看,任何減小模型泛化誤差的方法都可視為正則化,一些常用的正則化策略包括范數懲罰,數據集增強,多任務學習,Early Stopping,稀疏表示,Ensemble,Dropout,對抗訓練等。在Goodfellow的書[1]中,第七章詳細介紹了深度學習中網絡的正則化。

1 模型參數的范數懲罰

大多數正則化策略都是通過限制模型的容量來實現的,可在目標函數

之后添加一項參數懲罰項

Alt text


其中
確定懲罰力度,
時為無正則化。</p>

如果

取l1范數則為l1正則化,取l2范數則稱為l2正則化。

2 數據集增強

增加訓練數據集通常可以提高模型的泛化能力。當數據有限的情形下,人為地”造”些數據可能很管用,達到模型正則化的目的,這種技巧被稱為數據集增強(Data Augmentation)。Data Augmentation廣泛用于圖像、語音等領域的分類任務中,消除類別不平衡數據對模型訓練的影響。

Data Augmentation主要有兩種方式

  • Data wraping,在數據空間中進行各種變換,需要Domain Knowledge
  • Sythetic over-sampling,在特征空間中合成樣本,不需要Domain Knowledge,不依賴于具體應用

Data Augmentation的效果暫無理論性證明。直觀地猜想,增加人造數據導致的模型性能提升的上界應是增加同樣規模的真實數據導致的模型性能提升。文章[2]中給出了基于MNIST手寫數字識別的各種Data Augmentation方法效果比較,驗證了上述猜想。

通常來說,在保留樣本標簽信息下,人為、機理性地設計Data wraping的效果要優于Synthetic over-sampling的效果;模型不同,Data Augmentation帶來的benefit差異也很大。文章[2]提供了相關實驗結果,實驗中模型架構分為兩部分,第一部分是特征抽取,第二部分是分類器部分。

Alt text


其中,分類器部分嘗試了,NN,SVM,Extreme Learning Machine等。采用的Data Augmentation技巧包括

  • ELASTIC,Data wraping的一種方式
  • SMOTE,Synthetic Over-sampling的一種方式
  • DSMOTE,Synthetic Over-sampling的一種方式
Alt text
Alt text
Alt text

3 Dropout

Dropout近幾年風靡學術界與工業界,是至今最廣泛使用的implicit ensemble method。Goodfellow[2]中闡述了Dropout的主要思想。

  • Dropout訓練了具有隨機行為的網絡,預測時則對多個隨機決策做平均
  • Dropout本質上實現了帶參數共享的bagging(ensemble methods)
  • Dropout讓每個隱含單元學到在多種context下都表現良好的特征
  • Dropout相當于對隱含單元加噪(乘性噪聲),迫使其學習更豐富的特征

3.1 Bagging是什么?

在談論Dropout之前,我們先說明Bagging方法。Bagging(Bootstrap Aggregating)首先定義k個不同的模型,有放回地從原始訓練集中采樣構造k個不同的數據集,然后在數據集i上訓練模型i,預測時則取所有模型的平均。

3.2 Dropout具體過程

假設使用minibatch-based的方案進行訓練,每次選擇一個樣本加入minibatch時,隨機生成一個Binary Mask(注意:這是一個向量),用于確定網絡中的輸入和隱含單元是否被使用。每個單元的Mask與其它單元的Mask獨立,服從伯努利分布。例子如下,其中

為Mask。


Alt text

注意到Mask之后得到的網絡,其實相當于下圖16個子網絡(子模型)中隨機采樣

Alt text


為Binary Mask,
是參數
確定的子模型的損失函數,則對所有子模型做平均(ensemble),即最小化
(注意到,期望求取涉及的項數達到指數級別,但是我們可以通過Sample
來獲得其梯度的無偏估計,例如使用Monte Carol方法)

3.3 Dropout & Bagging</h3>

Dropout近似Bagging過程,但并非完全一致。在Bagging中,模型之間互相獨立;而Dropout中,模型之間共享參數,且在所有可能的子網絡(子模型)中,只有一小部分子模型被訓練,參數共享使得剩余的子網絡(子模型)也可以達到比較好的參數設置。

在進行預測時,bagging方法讓子模型投票,這個過程稱為推理(inference,源自概率圖模型中的概念,下文涉及少量概率圖模型的內容)假設Bagging中,模型i輸出概率分布

,則bagging中最終預測為所有模型預測的代數平均

對應到Dropout,對所有Mask取幾何平均,預測為

同樣地,求和項數達到指數級別,需要對(1)式進行近似求解,主要有以下幾種方案

  • Sampling Mask,大概10-20個Mask足夠
  • 使用幾何平均替代代數平均
  • 權重放縮(Weight Scaling Inference Rule,Hinton)

3.4 Dropout:使用幾何平均進行推理

d為可mask的單元的數目,對所有Mask取代數平均得到

Alt text

對上式進行歸一化,確保其是一個概率分布

Alt text

相關研究可以說明幾何平均的近似效果好于代數平均。

3.5 Dropout:權重放縮推理

Weight Scaling Inference Rule是另外一個近似推理方法。Hinton等人在2012年提出,可以僅使用一個模型的

來近似
。這個模型是什么樣子的呢?如下圖b所示,包含所有單元,但每個單元i的輸出權重需要乘上單元i被使用的概率。對于深層非線性的神經網絡,沒有任何理論證明此推理方法的準確性,但實用效果好,在某些情況下甚至比Sample-1000的Monte Carlo方法要好(選擇何種推理依賴于具體問題)。
Alt text

假設每個單元被使用的概率是0.5,即訓練時約有一半的單元被使用,則權重放縮推斷有下面2種實現方式(基本原則是保證訓練和測試時,每個單元輸入的總期望不變)

  • 訓練完成后,先將所有權重乘以0.5,然后再進行推斷
  • 訓練時,每個單元的狀態至乘以2

在網絡中無非線性隱含單元時,權重放縮推理可以實現準確推理(雖然深層非線性神經網絡的情形無法說明其近似準確性)下面以多元線性回歸分類器為例說明。

Case Study:對于n輸入的多元線性回歸分類器,v為輸入向量,y為類別標簽

Alt text

乘上Mask

Alt text

幾何平均

Alt text

忽略常數項


Alt text

歸一化之后,即得到權重為
的多元線性回歸分類器;也就是說如果我們使用權重放縮推理,得到的結果就是所有模型的幾何平均,無需任何近似。

3.6 Dropout:Advantages

Dropout相對于其它正則化方法的優點

  • 計算開銷小
  • 不受限于具體模型類型或者訓練方法(distributed representation,sgd)

參考文獻

[1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

[2] Sebastien C. Wong, Adam Gatt, Victor Stamatescu, and Mark D. McDonnell. Understanding data augmentation for classification: when to warp? CoRR, abs/1609.08764, 2016.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,489評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,290評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,776評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,510評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,866評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,036評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,585評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,331評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,536評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,754評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,154評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,469評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,273評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,505評論 2 379

推薦閱讀更多精彩內容

  • 正則化是增強模型泛化能力,減少測試誤差的策略;它可以在不過度增加偏差的情況下顯著的減少方差。 參數范數懲罰 L2范...
    鳳翔天下閱讀 2,283評論 0 1
  • 大家好,今天我要講的內容是在深度學習的卷積神經網絡中,如何減弱過擬合問題的相關研究,最近剛好在修改論文,就把相關的...
    yhlleo閱讀 2,038評論 0 10
  • 誰都有發火生氣的時候,有的人每天都跟吃了炸藥一樣,每天都很生氣;但有的人平時沉默寡言,溫文爾雅,似乎從來不生氣。可...
    成建說星座閱讀 869評論 0 0
  • 終于忙碌結束,得以坐等頭發干。卻不知道該怎樣開始今天的述說。嗯,就說說今天做了什么吧!我覺得農活雖然很累,但是真的...
    初十七月生閱讀 269評論 0 1
  • 烈日不見了,天空漸漸昏暗 隆隆的雷聲又起,翻滾著 我慢慢行走在南俊街頭, 你有雨,我有傘,誰怕?
    蕭書憶閱讀 149評論 0 0