主要是模式識別的內容,概念可以這么解釋:
在訓練區得到相當不錯的擬合結果,但是訓練區以外的適用效果不佳。
copy以下直接解釋:
【overfittingt是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在訓練數據外的數據集上卻不能很好的擬合數據。此時我們就叫這個假設出現了overfitting的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。而解決overfit的方法主要有兩種:提前停止樹的增長或者對已經生成的樹按照一定的規則進行后剪枝。
百度中關于overfitting的標準定義:給定一個假設空間H,一個假設h屬于H,如果存在其他的假設h’屬于H,使得在訓練樣例上h的錯誤率比h’小,但在整個實例分布上h’比h的錯誤率小,那么就說假設h過度擬合訓練數據。
..........................
以下概念由本人摘自《數據挖掘-概念與技術》
P186 過分擬合 即在機器學習期間,它可能并入了訓練數據中的某些特殊的異常點,這些異常不在一般數據集中出現。
P212 由于規則可能過分擬合這些數據,因此這種評論是樂觀的。也就是說,規則可能在訓練數據上行能很好,但是在以后的數據上九不那么好。
............................
補充c4.5算法中的介紹 這個通俗易懂
決策樹為什么要剪枝?原因就是避免決策樹“過擬合”樣本。前面的算法生成的決策樹非常的詳細而龐大,每個屬性都被詳細地加以考慮,決策樹的樹葉節點所覆蓋的訓練樣本都是“純”的。因此用這個決策樹來對訓練樣本進行分類的話,你會發現對于訓練樣本而言,這個樹表現堪稱完美,它可以100%完美正確得對訓練樣本集中的樣本進行分類(因為決策樹本身就是100%完美擬合訓練樣本的產物)。但是,這會帶來一個問題,如果訓練樣本中包含了一些錯誤,按照前面的算法,這些錯誤也會100%一點不留得被決策樹學習了,這就是“過擬合”。C4.5的締造者昆蘭教授很早就發現了這個問題,他作過一個試驗,在某一個數據集中,過擬合的決策樹的錯誤率比一個經過簡化了的決策樹的錯誤率要高。那么現在的問題就來了,如何在原生的過擬合決策樹的基礎上,通過剪枝生成一個簡化了的決策樹?】 【不給出出處的文字不是好文字:http://blog.csdn.net/fengzhe0411/article/details/7165549】