1.從公式上理解
loss function角度
L1和L2都是將權重作為懲罰加到Loss function里,L1正則是加了參數的一范數之和,L2正則是加了參數的二范數之和。
約束條件的角度
對權重進行約束,L1是約束參數的絕對值,L2約束參數的平方。
貝葉斯角度
假設權重滿足一定的分布,L1是假設權重符合拉普拉斯分布,L2是假設權重符合高斯分布。
2. 效果上的區別
相同點:
都通過降低模型復雜度來避免過擬合。
不同點:
L1能產生稀疏解,去掉一些冗余特征和相關性比較大的特征,有特征選擇的效果。適用于特征之間有關聯的情況;
L2能讓所有參數都縮小,但是不會降為0。適用于特征之間沒有關聯的情況。
3. L1能產生稀疏解的原因:
L1將所有小于的參數置為0,L2是起到一個縮放的效果。
有兩種推導方法:
- 從貝葉斯的角度,L1正則是權重符合拉普拉斯分布,L2正則是符合高斯分布
參考資料1 - 求解析解,令梯度為0,看權重的計算公式。用到了泰勒公式
手推過程
參考資料2
- 采用L1,而不是L0的原因: 凸優化問題、便于求解
【參考資料】