入門
任務是從樣本中推理
- 需要解決的問題是:
處理海量數據的存儲和計算的高效算法
學習得到的模型,一定是高效的,即時間復雜度,空間復雜度和精確度都是相對最好的
- 一些問題的常用數學知識解法
- 關聯規則,使用條件概率 P(Y|X),即在X發生的條件下,Y發生的概率
如購物籃的分析,可以樣本分析在購買了X的顧客中同時購買了Y的概率來,決定是否要打包銷售Y,或者可以通過數據來預測網站中的外鏈那些是跳出概率較大的,可以對這些做一些預處理的操作
- 分類問題
學習的局限性
- 從特殊到一般的推斷和學習的估計
- 機器學習的模型應該是能夠自適應環境的才好
- 在統計學,模式識別、神經網絡信號處理、控制、人工智能以及數據挖掘等領域,按照不同的學習方法和側重點來研究機器學習的可行性
監督學習
監督學習分為:分類(離散的數據)和回歸(連續的數據)
- 泛化
表示應該正確的分類卻被劃分到錯誤的分類上面,或者是錯誤的實例劃分到正確的分類上面了,這占全部分類的比例就是模型的泛化能力,訓練集上訓練的模型能在多大程度上能夠對新的實例預測出正確輸出就是泛化能力
VC維
噪聲
噪聲的存在會影響我們對數據的擬合作用
回歸
模型選擇與泛化
選擇正確的偏倚就是,模型選擇,如果模型選的太復雜的話,可能會出現過擬合的想象,但是要是模型選的不夠復雜的話,就會出現欠擬合的情況
實例數據訓練的學習算法中存在著三種狀態的平衡:
- 假設的復雜性(模型的復雜性)
- 數據的總量
- 在新的數據上的泛化能力,也就是模型的預測能力
為了達到這個能力,我們一般使用交叉確認的方式來實現,即將數據集分成訓練集和確認集,在訓練集上訓練得出的模型,能夠在確認集上得到正確率最高的模型就是相對最好的模型