L1和L2正則

1.從公式上理解

loss function角度

L1和L2都是將權重作為懲罰加到Loss function里,L1正則是加了參數的一范數之和,L2正則是加了參數的二范數之和。

約束條件的角度

對權重進行約束,L1是約束參數的絕對值,L2約束參數的平方。

貝葉斯角度

假設權重滿足一定的分布,L1是假設權重符合拉普拉斯分布,L2是假設權重符合高斯分布。

2. 效果上的區別

相同點:
都通過降低模型復雜度來避免過擬合。
不同點:
L1能產生稀疏解,去掉一些冗余特征和相關性比較大的特征,有特征選擇的效果。適用于特征之間有關聯的情況;
L2能讓所有參數都縮小,但是不會降為0。適用于特征之間沒有關聯的情況。

3. L1能產生稀疏解的原因:

L1將所有小于\frac{\lambda}{2}的參數置為0,L2是起到一個縮放的效果。
有兩種推導方法:

  1. 從貝葉斯的角度,L1正則是權重符合拉普拉斯分布,L2正則是符合高斯分布
    參考資料1
  2. 求解析解,令梯度為0,看權重的計算公式。用到了泰勒公式
    手推過程
    參考資料2
  • 采用L1,而不是L0的原因: 凸優化問題、便于求解

【參考資料】

  1. 最大似然估計和最小二乘法怎么理解
  2. L1正則化及其推導
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。