吃瓜第一章 2023-12-11

學習目標

  • 看懂每一步推導
  • 會調scikit-learn庫實現(xiàn)代碼

第一章 緒論

1 基本術語

  • 模型:一個函數(shù)
  • 樣本空間 :\mathcal X表示
  • 標記:
    標記取值為離散型,是分類任務classification
    標記取值為連續(xù)性,是回歸任務regression
    用到標記,是有監(jiān)督學習
    沒用標記,是無監(jiān)督學習
  • 泛化:對未知事物判斷的準確與否
  • 分布:假設樣本空間服從一個概率分布\mathcal D。通常假設我們收集到的樣本都是獨立同分布的。
  • 算法:從數(shù)據(jù)中學得“模型”的具體方法

2 假設空間和版本空間

  • 假設空間:如一元一次函數(shù),一元二次函數(shù)。。。對一個問題可能可以解決的模型(假設)所在的空間。
  • 數(shù)據(jù)作為訓練集可以有多個假設空間,且在不同的假設空間中都有可能學得能夠擬合訓練集的模型,我們將所有能夠擬合訓練集的模型構成的集合稱為版本空間

3 歸納偏好

不同的機器學習算法有不同的偏好,我們稱為 “歸納偏好”

  • “奧卡姆剃刀”原則——“若有多個假設與觀察一致,則選最簡單的那個”

通常基于模型在測試集上的表現(xiàn)來評判模型之間的優(yōu)劣。
總誤差與學習算法無關
NFL定理
證明:(考慮二分類,f均勻分布)

1.1.png

學習算法自身的歸納偏好和問題要相配。

數(shù)據(jù)決定模型的上限,而算法讓模型無限逼近上限。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。