為解決過擬合問題,加入正則化項或者規則項,對模型的復雜程度進行懲罰,讓模型更加簡單。
規則化函數Ω(w)通常可以選擇L1、L2范數。
?λ 在這里我們稱做正則化參數。它是用來平衡擬合訓練的目標和保持參數值較小的目標。一方面我們想要訓練的模型能更好地擬合訓練數據,希望模型能夠很好的適應訓練集;另一方面是我們想要保持參數值較小,模型較為簡單。
規則項/正則化項
L0范數:非零元素的個數。在實際應用中,由于L0范數本身不容易有一個好的數學表示形式,給出上面問題的形式化表示是一個很難的問題,所以在實際情況中,L0的最優問題會被放寬到L1或L2下的最優化。
L1范數:非零元素的絕對值之和,對應的是常說的曼哈頓距離、最小絕對誤差等。線性回歸的L1范數正則化對應的是Lasso回歸。L1范數可以使得一些系數變小,甚至還是一些絕對值較小的系數直接變為0,因此特別適用于參數數目縮減與參數的選擇。
L2范數:向量元素的平方和再開平方,對應的是常說的歐氏距離。線性回歸的L2范數正則化對應的是Ridge回歸(嶺回歸。)Ridge回歸在不拋棄任何一個特征的情況下,縮小了回歸系數,使得模型相對而言比較的穩定,但和Lasso回歸比,這會使得模型的特征留的特別多,模型解釋性差。
總結:
L1范數和L0范數可以實現稀疏,L1因具有比L0更好的優化求解特性而被廣泛應用。L1、L2都可以防止過擬合,只不過手段不同:L1是舍棄掉一些不重要的特征,L2是控制所有特征的權重。
之所以要實現稀疏,是因為一方面要去掉那些沒有較大影響的特征,起到特征選擇的作用;另一方面也是為了讓模型更加容易解釋。
另,正則化還可以解決特征數量大于樣本數量的問題。
如果你只有較少的樣本,導致特征數量大于樣本數量,那么矩陣 XTX 將是不可逆矩陣或奇異(singluar)矩陣,或者用另一種說法是這個矩陣是退化(degenerate)的,那么我們就沒有辦法使用正規方程來求出 θ 。
幸運的是,正規化也為我們解決了這個問題,具體的說只要正則參數是嚴格大于零,實際上,可以證明如下矩陣:
將是可逆的。因此,使用正則還可以照顧任何 XTX 不可逆的問題。
參考文獻: