機器學習基礎理論-1 正則化

為解決過擬合問題,加入正則化項或者規則項,對模型的復雜程度進行懲罰,讓模型更加簡單。


正則化

規則化函數Ω(w)通常可以選擇L1、L2范數。

?λ 在這里我們稱做正則化參數。它是用來平衡擬合訓練的目標和保持參數值較小的目標。一方面我們想要訓練的模型能更好地擬合訓練數據,希望模型能夠很好的適應訓練集;另一方面是我們想要保持參數值較小,模型較為簡單。


規則項/正則化項

L0范數:非零元素的個數。在實際應用中,由于L0范數本身不容易有一個好的數學表示形式,給出上面問題的形式化表示是一個很難的問題,所以在實際情況中,L0的最優問題會被放寬到L1或L2下的最優化。

L1范數:非零元素的絕對值之和,對應的是常說的曼哈頓距離、最小絕對誤差等。線性回歸的L1范數正則化對應的是Lasso回歸。L1范數可以使得一些系數變小,甚至還是一些絕對值較小的系數直接變為0,因此特別適用于參數數目縮減與參數的選擇。

L2范數:向量元素的平方和再開平方,對應的是常說的歐氏距離。線性回歸的L2范數正則化對應的是Ridge回歸(嶺回歸。)Ridge回歸在不拋棄任何一個特征的情況下,縮小了回歸系數,使得模型相對而言比較的穩定,但和Lasso回歸比,這會使得模型的特征留的特別多,模型解釋性差。

總結:

L1范數和L0范數可以實現稀疏,L1因具有比L0更好的優化求解特性而被廣泛應用。L1、L2都可以防止過擬合,只不過手段不同:L1是舍棄掉一些不重要的特征,L2是控制所有特征的權重。

之所以要實現稀疏,是因為一方面要去掉那些沒有較大影響的特征,起到特征選擇的作用;另一方面也是為了讓模型更加容易解釋。


另,正則化還可以解決特征數量大于樣本數量的問題。

如果你只有較少的樣本,導致特征數量大于樣本數量,那么矩陣 XTX 將是不可逆矩陣或奇異(singluar)矩陣,或者用另一種說法是這個矩陣是退化(degenerate)的,那么我們就沒有辦法使用正規方程來求出 θ 。

幸運的是,正規化也為我們解決了這個問題,具體的說只要正則參數是嚴格大于零,實際上,可以證明如下矩陣:

將是可逆的。因此,使用正則還可以照顧任何 XTX 不可逆的問題。




參考文獻:

機器學習中的范數規則化

機器學習之正則化

機器學習中常常提到的正則化到底是什么意思? - 知乎

幾種范數的簡單介紹 - CSDN博客

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容