學習目標
- 看懂每一步推導
- 會調scikit-learn庫實現(xiàn)代碼
第一章 緒論
1 基本術語
- 模型:一個函數(shù)
- 樣本空間 :
表示
- 標記:
標記取值為離散型,是分類任務classification
標記取值為連續(xù)性,是回歸任務regression
用到標記,是有監(jiān)督學習
沒用標記,是無監(jiān)督學習 - 泛化:對未知事物判斷的準確與否
- 分布:假設樣本空間服從一個概率分布
。通常假設我們收集到的樣本都是獨立同分布的。
- 算法:從數(shù)據(jù)中學得“模型”的具體方法
2 假設空間和版本空間
- 假設空間:如一元一次函數(shù),一元二次函數(shù)。。。對一個問題可能可以解決的模型(假設)所在的空間。
- 數(shù)據(jù)作為訓練集可以有多個假設空間,且在不同的假設空間中都有可能學得能夠擬合訓練集的模型,我們將所有能夠擬合訓練集的模型構成的集合稱為版本空間。
3 歸納偏好
不同的機器學習算法有不同的偏好,我們稱為 “歸納偏好”
- “奧卡姆剃刀”原則——“若有多個假設與觀察一致,則選最簡單的那個”
通常基于模型在測試集上的表現(xiàn)來評判模型之間的優(yōu)劣。
總誤差與學習算法無關
NFL定理
證明:(考慮二分類,f均勻分布)
1.1.png
學習算法自身的歸納偏好和問題要相配。
數(shù)據(jù)決定模型的上限,而算法讓模型無限逼近上限。