【機器學習基礎】機器學習中的三個技巧原則

奧卡姆剃刀原則(Occam's Razor)

有一句話是這樣說的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在機器學習中其意義就是,對數據最簡單的解釋也就是最好的解釋(The simplest model that fits the data is also the most plausible)。



比如上面的圖片,右邊是不是比左邊解釋的更好呢?顯然不是這樣的。

如無必要,勿增實體
奧卡姆剃刀定律,即簡單有效原則,說的是,切勿浪費較多東西去做,用較少的東西,同樣可以做好的事情。

所以,相比復雜的假設,我們更傾向于選擇簡單的、參數少的假設;同時,我們還希望選擇更加簡單的模型,使得有效的假設的數量不是很多。
另一種解釋是,假設有一個簡單的假設H,如果它可以很好的區分一組數據,那么說明這組數據確實是存在某種規律性。

抽樣偏差(Sampling Bias)

If the data is sampled in a biased way,learning will produce a similarily biased outcome.
這句話告訴我們,如果抽樣的數據是有偏差的,那么學習的效果也是有偏差的,這種情形稱作是抽樣偏差。
在實際情況中,我們需要訓練數據和測試數據來自同一分布。
為了避免這樣的問題,我們可以做的是要了解測試環境,讓訓練環境或者說是訓練數據和測試環境盡可能的接近。

數據窺探(Data Snooping)

你在使用數據任何過程都是間接的窺探了數據,所以你在下決策的時候,你要知道,這些數據可能已經被你頭腦中的模型復雜度所污染。
有效避免這種情況的方法有:

  • 做決定之前不要看數據
  • 要時刻存有懷疑

轉載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.lxweimin.com/users/2bd9b48f6ea8/latest_articles)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容