1.什么是機器學習?
在訓練集上產生算法,在測試集上產生模型。通過對經驗(歷史數據)的利用對新情況(新數據)做出有效決策。
2.機器學習與統計模型的區別?
機器學習屬計算機科學和人工智能的一個分支,數據處理廣度和深度大,預測和學習可以同時進行。通過數據學習構建分析系統,不依賴明確構建規則,不依賴假設,減少了人力投入,預測效果好。
統計模型屬數學分支,用于發現變量之間相關關系從而預測輸出。其依賴于參數估計,要求模型建立者提前知道或了解變量之間的關系。一般應用在較少的數據量和較窄的數據屬性上。
二者工作類似,其邊界越來越模糊,專業術語有很強的相似性:
machine learning ‖ statistics
network graphs ‖ model
weights ‖ paramaters
learning ‖ fitting
generalization ‖ test set performance
supervised learning ‖ density estimation clustering
3.機器學習與統計學的聯系
統計學的研究成果經由機器學習行成算法進而展開數據挖掘。
4.三大關鍵技術
機器學習(數據分析)、云計算(數據處理)、眾包(數據標記)
5.基本術語
記錄=示例=樣本=特征向量
數據集=記錄的集合
數據集包含訓練集和測試集
屬性=特征
維數:屬性的個數
屬性空間=樣本空間=輸入空間
標記空間=輸出空間
映射關系:輸入空間-輸出空間
? ? ? ? 屬性空間-標記空間
標記=訓練樣本的結果
樣例=擁有標記信息的示例
學習=訓練
模型=學習器
有監督學習=訓練數據有標記信息
有監督學習包括分類(預測離散值)和回歸(預測連續值)
無監督學習=訓練數據無標記信息
聚類屬于無監督學習
范化:從特殊到一般的歸納
廣義歸納:從樣例中學習
俠義歸納:從訓練數據中學得概念
概念學習:常用技術“黑箱模型”,基本技術是布爾概念學習
范化能力:學得模型適應“新樣本”的能力
假設:學得模型對應數據的潛在規律
學習過程:在假設空間中搜索與訓練集匹配的假設
假設空間搜索策略:
自頂向下,從一般到特殊。不斷刪除與正例不一致的假設
自底向上,從特殊到一般。不斷刪除與反例一致的假設
操作上,自頂向下和自底向上可同時進行
版本空間:與訓練集一致的“假設集合”(通常現實基于有限樣本訓練集面臨很大的假設空間)
深度學習狹義論=“很多層”的神經網絡