在傳統機器學習中,模型的正則化是一個重要話題,而深度學習領域中,大多數模型容量大,如果沒有合適的正則化,甚至很難得到比較好的結果。
0 何為正則化?
廣義上來看,任何減小模型泛化誤差的方法都可視為正則化,一些常用的正則化策略包括范數懲罰,數據集增強,多任務學習,Early Stopping,稀疏表示,Ensemble,Dropout,對抗訓練等。在Goodfellow的書[1]中,第七章詳細介紹了深度學習中網絡的正則化。
1 模型參數的范數懲罰
大多數正則化策略都是通過限制模型的容量來實現的,可在目標函數其中
取l1范數則為l1正則化,取l2范數則稱為l2正則化。
2 數據集增強
增加訓練數據集通常可以提高模型的泛化能力。當數據有限的情形下,人為地”造”些數據可能很管用,達到模型正則化的目的,這種技巧被稱為數據集增強(Data Augmentation)。Data Augmentation廣泛用于圖像、語音等領域的分類任務中,消除類別不平衡數據對模型訓練的影響。
Data Augmentation主要有兩種方式
- Data wraping,在數據空間中進行各種變換,需要Domain Knowledge
- Sythetic over-sampling,在特征空間中合成樣本,不需要Domain Knowledge,不依賴于具體應用
Data Augmentation的效果暫無理論性證明。直觀地猜想,增加人造數據導致的模型性能提升的上界應是增加同樣規模的真實數據導致的模型性能提升。文章[2]中給出了基于MNIST手寫數字識別的各種Data Augmentation方法效果比較,驗證了上述猜想。
通常來說,在保留樣本標簽信息下,人為、機理性地設計Data wraping的效果要優于Synthetic over-sampling的效果;模型不同,Data Augmentation帶來的benefit差異也很大。文章[2]提供了相關實驗結果,實驗中模型架構分為兩部分,第一部分是特征抽取,第二部分是分類器部分。
其中,分類器部分嘗試了,NN,SVM,Extreme Learning Machine等。采用的Data Augmentation技巧包括
- ELASTIC,Data wraping的一種方式
- SMOTE,Synthetic Over-sampling的一種方式
- DSMOTE,Synthetic Over-sampling的一種方式
3 Dropout
Dropout近幾年風靡學術界與工業界,是至今最廣泛使用的implicit ensemble method。Goodfellow[2]中闡述了Dropout的主要思想。
- Dropout訓練了具有隨機行為的網絡,預測時則對多個隨機決策做平均
- Dropout本質上實現了帶參數共享的bagging(ensemble methods)
- Dropout讓每個隱含單元學到在多種context下都表現良好的特征
- Dropout相當于對隱含單元加噪(乘性噪聲),迫使其學習更豐富的特征
3.1 Bagging是什么?
在談論Dropout之前,我們先說明Bagging方法。Bagging(Bootstrap Aggregating)首先定義k個不同的模型,有放回地從原始訓練集中采樣構造k個不同的數據集,然后在數據集i上訓練模型i,預測時則取所有模型的平均。
3.2 Dropout具體過程
假設使用minibatch-based的方案進行訓練,每次選擇一個樣本加入minibatch時,隨機生成一個Binary Mask(注意:這是一個向量),用于確定網絡中的輸入和隱含單元是否被使用。每個單元的Mask與其它單元的Mask獨立,服從伯努利分布。例子如下,其中為Mask。
注意到Mask之后得到的網絡,其實相當于下圖16個子網絡(子模型)中隨機采樣
設
3.3 Dropout & Bagging</h3>
Dropout近似Bagging過程,但并非完全一致。在Bagging中,模型之間互相獨立;而Dropout中,模型之間共享參數,且在所有可能的子網絡(子模型)中,只有一小部分子模型被訓練,參數共享使得剩余的子網絡(子模型)也可以達到比較好的參數設置。
在進行預測時,bagging方法讓子模型投票,這個過程稱為推理(inference,源自概率圖模型中的概念,下文涉及少量概率圖模型的內容)假設Bagging中,模型i輸出概率分布對應到Dropout,對所有Mask取幾何平均,預測為
同樣地,求和項數達到指數級別,需要對(1)式進行近似求解,主要有以下幾種方案
- Sampling Mask,大概10-20個Mask足夠
- 使用幾何平均替代代數平均
- 權重放縮(Weight Scaling Inference Rule,Hinton)
3.4 Dropout:使用幾何平均進行推理
d為可mask的單元的數目,對所有Mask取代數平均得到
對上式進行歸一化,確保其是一個概率分布
相關研究可以說明幾何平均的近似效果好于代數平均。
3.5 Dropout:權重放縮推理
Weight Scaling Inference Rule是另外一個近似推理方法。Hinton等人在2012年提出,可以僅使用一個模型的假設每個單元被使用的概率是0.5,即訓練時約有一半的單元被使用,則權重放縮推斷有下面2種實現方式(基本原則是保證訓練和測試時,每個單元輸入的總期望不變)
- 訓練完成后,先將所有權重乘以0.5,然后再進行推斷
- 訓練時,每個單元的狀態至乘以2
在網絡中無非線性隱含單元時,權重放縮推理可以實現準確推理(雖然深層非線性神經網絡的情形無法說明其近似準確性)下面以多元線性回歸分類器為例說明。
Case Study:對于n輸入的多元線性回歸分類器,v為輸入向量,y為類別標簽
乘上Mask
幾何平均
忽略常數項
歸一化之后,即得到權重為
3.6 Dropout:Advantages
Dropout相對于其它正則化方法的優點
- 計算開銷小
- 不受限于具體模型類型或者訓練方法(distributed representation,sgd)
參考文獻
[1] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.
[2] Sebastien C. Wong, Adam Gatt, Victor Stamatescu, and Mark D. McDonnell. Understanding data augmentation for classification: when to warp? CoRR, abs/1609.08764, 2016.