機器學習筆記-從過度擬合說起

計算社會科學講習班 機器學習:理論與實踐模塊Day1

隨著大數據時代的到來,現實已然允許我們對每個異質性群體做局部研究。然而面對這高維空間,單純靠理論,有些獨木難支,此時須訴諸于機器計算。通過它來計算因果結構、進行子群分解、探索選元問題,實現數據對理論思考的驅動。

如今,直面計算機科學技術的“滲入”,社會科學就成了明日黃花嗎?答案是否定的。社會科學可以為機器學習的過程注入“學科理論”,從而大大減少計算量,降低對算力的要求,在有監督的機器學習中貢獻我們專屬的理論驅動力。

無論是鐘情數據,還是喜愛理論,機器學習都值得靜下心學一學。未來,希望我們都可以比自己的數據更聰明一點~


以下是按梁老師講義的框架,結合網絡資料做的學習筆記

過度擬合是機器學習需首要解決的問題。

image.png

什么是過擬合?

過擬合就是“你想太多了”
過擬合就是“太自負了”
過擬合就是“平時課后題做的都對,考試一考很多不會。”
......

正經地說,過擬合是指機器在學習的時候,既學習了全局特征又學習了局部特征,還把局部特征學的過頭了,這就造成了其“泛化性”差(鄭昆,2017)。

通俗地介紹,可以舉個追妹子的例子(當然,你也可以腦補出追漢子的場景)。
當追妹子時,假設你先找表妹問喜歡什么,表妹說她喜歡干凈帥氣的男生,還說她喜歡周杰倫,喜歡火鍋,喜歡酸菜魚.......合計一百條規矩。你規規矩矩地按照要求學習,終于符合表妹的一切要求,此時訓練完成,零誤差。然后自己超級自信準備出去試試追個妹子。可是換了個妹子,發現學到的似乎沒想象中有用。第二個妹子只要你干凈帥氣。后面的九十八條她都不care,她甚至討厭吃火鍋,那后面98條只會增加誤差。這就過擬合了(劉文博,2016)。

如何消除過擬合?

四字奧義:交叉驗證(cross validation)

這就是我們平時常常切分訓練集的緣由。即大部分數據訓練得出模型,然后用剩下的一小撮數據來做驗證,看看自己的模型怎么樣,其出發點就是為了防止“過擬合”的影響。如果我們取10%的數據做驗證,那么一份數據就可以做10次這樣的對比。

通俗地講,還可以沿襲上面追妹子的例子。
你在你表妹那兒學到的東西,在你表姐那兒測試一下對不對。在你表姐那兒學到的,在你二姐那測試一下。來來回回用不同的測試對象和訓練對象做交叉比對。這樣學到規律就不會過擬合啦(劉文博,2016)。

具體做時,可以用兩分法、K折交叉驗證。

除此以外,還可以通過正則化(Regularization),即限制機器的學習來防止過擬合。

先說通俗版本,在學習追妹子,要有男人的尊嚴! 有底線!不能妹子說啥就是啥!不能無限量增加要學的規矩的數量!學三條規矩我就忍了,但學一百條規矩肯定不能干(劉文博,2016)。像Lasso回歸、Ridge回歸就是限制學習規矩數量的不同方法。

再用學術語言聊一遍,正則化可以用下面的數學語言來表述(以下多為陶輕松的知乎回答)。


image.png

其中,


image.png

正則化即是將結構風險最小化的過程。

為了便于理解,可以將上面的目標函數改寫為



其中,

image.png

高等數學中的泰勒展開式告訴我們任何函數都可以用多項式的方式去趨近。

為了防止過擬合,我們要控制w的個數,即N的數值,讓N最小化,而讓N最小化,其實就是讓W向量中項的個數最小化。


讓W向量中項的個數最小化,即0范數的概念。

  • 0范數,向量中非零元素的個數
  • 1范數,向量中各個元素絕對值之和
  • 2范數,向量各元素的平方和然后求平方根,就是通常意義上的模。

即有:


但在實際的求解過程中,0范數很難優化求解,求解難度是個NP完全問題。后來一些聰明的前輩們提出用1范數來解決,并給出如下關系:

image.png

以上,1范數和0范數可以實現稀疏,L1因具有比L0更好的優化求解特性而被廣泛應用。這里,“稀疏”的意思是說“W的大部分元素都是0”。除了L0和L1外,L2也廣受青睞。僅含L1的被稱為Lasso回歸,僅含L2被稱為Ridge回歸,既有L1又有L2的被稱為Elastic Net模型。

無論是兩分法,還是正則化,交叉驗證的思維都貫穿始終,也可以說是機器學習的靈魂。而靈魂的宿主就是我們常說的訓練樣本和測試驗證樣本。面對它們,我們特希望自己的模型能通過測試樣本的“考驗”,用數學語言表述就是測試樣本所得結果的誤差率小。

如何實現這個愿望呢?只要把我們的測試樣本分到最有可能的分類就好啦。這樣的分類方法有:貝葉斯分類,KNN分類、LDA、決策樹、支持向量機、集成學習、神經網絡、隨機森林等等。

參考資料
1.用簡單易懂的語言描述「過擬合 overfitting」?
2.什么是過擬合 (Overfitting)
3.機器學習中常常提到的正則化到底是什么意思?
4.L1范數與L2范數的區別
5.AI從零開始之分類器介紹
6.機器學習中常見分類器的應用場景

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容