機器學習-概念

1.什么是機器學習?

在訓練集上產生算法,在測試集上產生模型。通過對經驗(歷史數據)的利用對新情況(新數據)做出有效決策。

2.機器學習與統計模型的區別?

機器學習屬計算機科學和人工智能的一個分支,數據處理廣度和深度大,預測和學習可以同時進行。通過數據學習構建分析系統,不依賴明確構建規則,不依賴假設,減少了人力投入,預測效果好。

統計模型屬數學分支,用于發現變量之間相關關系從而預測輸出。其依賴于參數估計,要求模型建立者提前知道或了解變量之間的關系。一般應用在較少的數據量和較窄的數據屬性上。

二者工作類似,其邊界越來越模糊,專業術語有很強的相似性:

machine learning ‖ statistics

network graphs ‖ model

weights ‖ paramaters

learning ‖ fitting

generalization ‖ test set performance

supervised learning ‖ density estimation clustering

3.機器學習與統計學的聯系

統計學的研究成果經由機器學習行成算法進而展開數據挖掘。

4.三大關鍵技術

機器學習(數據分析)、云計算(數據處理)、眾包(數據標記)

5.基本術語

記錄=示例=樣本=特征向量

數據集=記錄的集合

數據集包含訓練集和測試集

屬性=特征

維數:屬性的個數

屬性空間=樣本空間=輸入空間

標記空間=輸出空間

映射關系:輸入空間-輸出空間

? ? ? ? 屬性空間-標記空間

標記=訓練樣本的結果

樣例=擁有標記信息的示例

學習=訓練

模型=學習器

有監督學習=訓練數據有標記信息

有監督學習包括分類(預測離散值)和回歸(預測連續值)

無監督學習=訓練數據無標記信息

聚類屬于無監督學習

范化:從特殊到一般的歸納

廣義歸納:從樣例中學習

俠義歸納:從訓練數據中學得概念

概念學習:常用技術“黑箱模型”,基本技術是布爾概念學習

范化能力:學得模型適應“新樣本”的能力

假設:學得模型對應數據的潛在規律

學習過程:在假設空間中搜索與訓練集匹配的假設

假設空間搜索策略:

自頂向下,從一般到特殊。不斷刪除與正例不一致的假設

自底向上,從特殊到一般。不斷刪除與反例一致的假設

操作上,自頂向下和自底向上可同時進行

版本空間:與訓練集一致的“假設集合”(通常現實基于有限樣本訓練集面臨很大的假設空間)

深度學習狹義論=“很多層”的神經網絡

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容