奧卡姆剃刀原則(Occam's Razor)
有一句話是這樣說的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在機器學習中其意義就是,對數據最簡單的解釋也就是最好的解釋(The simplest model that fits the data is also the most plausible)。

比如上面的圖片,右邊是不是比左邊解釋的更好呢?顯然不是這樣的。
如無必要,勿增實體
奧卡姆剃刀定律,即簡單有效原則,說的是,切勿浪費較多東西去做,用較少的東西,同樣可以做好的事情。
所以,相比復雜的假設,我們更傾向于選擇簡單的、參數少的假設;同時,我們還希望選擇更加簡單的模型,使得有效的假設的數量不是很多。
另一種解釋是,假設有一個簡單的假設H,如果它可以很好的區分一組數據,那么說明這組數據確實是存在某種規律性。
抽樣偏差(Sampling Bias)
If the data is sampled in a biased way,learning will produce a similarily biased outcome.
這句話告訴我們,如果抽樣的數據是有偏差的,那么學習的效果也是有偏差的,這種情形稱作是抽樣偏差。
在實際情況中,我們需要訓練數據和測試數據來自同一分布。
為了避免這樣的問題,我們可以做的是要了解測試環境,讓訓練環境或者說是訓練數據和測試環境盡可能的接近。
數據窺探(Data Snooping)
你在使用數據任何過程都是間接的窺探了數據,所以你在下決策的時候,你要知道,這些數據可能已經被你頭腦中的模型復雜度所污染。
有效避免這種情況的方法有:
- 做決定之前不要看數據
- 要時刻存有懷疑
轉載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.lxweimin.com/users/2bd9b48f6ea8/latest_articles)