一.機(jī)器學(xué)習(xí)的概念
????生活中我們可以利用過去的經(jīng)驗(yàn)來分析并解決當(dāng)前遇到的新問題,計(jì)算機(jī)也可以做同樣的事情——即機(jī)器學(xué)習(xí)(Machine Learning)。
????機(jī)器學(xué)習(xí)致力于研究通過計(jì)算手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。這里所謂的經(jīng)驗(yàn)指的是就是數(shù)據(jù)。通過學(xué)習(xí)算法對(duì)輸入的數(shù)據(jù)進(jìn)行學(xué)習(xí),得出的模型,即從數(shù)據(jù)中學(xué)習(xí)到的結(jié)果。
二.基本術(shù)語
例如:(年齡=小明;性別=男性;身高=175),(年齡=小紅;性別=女性;身高=165) 這樣一組數(shù)據(jù)
- 這樣的集合稱為一個(gè)數(shù)據(jù)集(data set)
- 其中每條記錄都是關(guān)于某個(gè)個(gè)體的描述,稱為一個(gè)示例(instance)
- 描述事物某方面特征的值稱為 屬性(attribute)或 特征(feature)
- 屬性的取值稱為屬性值(attribute value)
- 屬性的張成空間稱為屬性空間(attribute space)、樣本空間(sample space)或者輸入空間。可以將一個(gè)示例中的三個(gè)屬性作為坐標(biāo)系的三個(gè)方向,這樣就構(gòu)成了一個(gè)三維空間,其中每個(gè)點(diǎn)都對(duì)應(yīng)一個(gè)坐標(biāo)向量,所以也可以把一個(gè)示例稱為“特征向量(feature vector)”
- 通過數(shù)據(jù)學(xué)習(xí)得到模型的過程稱為 訓(xùn)練(training)或 學(xué)習(xí)(learning)
- 訓(xùn)練使用的數(shù)據(jù)稱為 訓(xùn)練數(shù)據(jù)(training data)
- 其中每個(gè)樣本稱為一個(gè)訓(xùn)練樣本(training sample)
- 訓(xùn)練樣本組成的集合稱為訓(xùn)練集(training set)
- 模型中得到的某種規(guī)律稱為假設(shè)(hypothesis),而潛在的規(guī)律自身則稱為真相(ground-truth)。整個(gè)機(jī)器學(xué)習(xí)的過程就是找出或者讓假設(shè)逼近真相的一個(gè)過程
- 模型有時(shí)候也被稱為 學(xué)習(xí)器(learner)
- 訓(xùn)練樣本的結(jié)果稱為標(biāo)記(label)
- 擁有標(biāo)記信息的事例稱為樣例(example)
- 所有的標(biāo)記集合稱為標(biāo)記空間(label space)或 輸出空間
- 使用模型進(jìn)行預(yù)測(cè)的過程稱為測(cè)試(testing)
- 模型適用于新樣本的能力稱為泛化(generalization)
- 機(jī)械的記憶訓(xùn)練樣本稱為機(jī)械學(xué)習(xí)
學(xué)習(xí)任務(wù)的分類
- 監(jiān)督學(xué)習(xí)(supervised learning),即訓(xùn)練數(shù)據(jù)具有標(biāo)記信息,且有反饋(feedback)
- 預(yù)測(cè)的結(jié)果若為連續(xù)值,如
0.37
、0.92
,則此類學(xué)習(xí)任務(wù)稱為回歸(regression) - 預(yù)測(cè)的結(jié)果若為離散值,如
0
或1
,“好”或“壞”,則此類學(xué)習(xí)任務(wù)稱為分類(classification),其中包括- 二分類(binary classification):即只涉及到兩個(gè)類別
- 多分類(multi-class classification):即涉及到多個(gè)類別
- 無監(jiān)督學(xué)習(xí)(unsupervised learning),即訓(xùn)練數(shù)據(jù)沒有標(biāo)記信息,且沒有反饋(feedback)
- 聚類(clustering):在使用聚類的過程當(dāng)中,訓(xùn)練數(shù)據(jù)沒有標(biāo)記信息。并且,例如身高、體重、性別這樣的概念事先是未知的。使用聚類可以了解數(shù)據(jù)的內(nèi)在規(guī)律,為進(jìn)一步的分析數(shù)據(jù)建立基礎(chǔ)。
- 關(guān)聯(lián)(Associative)
三. 假設(shè)空間與歸納偏好
????學(xué)習(xí)的過程就是在所有假設(shè)(hypothesis)組成的空間中進(jìn)行搜索的過程,目標(biāo)是找到與訓(xùn)練集匹配(fit)的假設(shè)。假設(shè)的表示一旦確定,假設(shè)空間的規(guī)模和大小就得到了確定(即假設(shè)的數(shù)量)。
????但是,現(xiàn)實(shí)中的實(shí)際問題會(huì)面臨很大的假設(shè)空間,但學(xué)習(xí)過程是基于有限樣本訓(xùn)練集進(jìn)行的。因此,可能會(huì)存在多個(gè)假設(shè)與訓(xùn)練集一致的情況,我們稱之為版本空間(version space)
????由于版本空間的存在,可能導(dǎo)致面臨新樣本的時(shí)候,會(huì)產(chǎn)生截然不同的結(jié)果。這時(shí)候,需要一定的策略對(duì)學(xué)習(xí)結(jié)果作出選擇,這種策略就是歸納偏好,相當(dāng)于模型的一種“價(jià)值取向”。如若不然,就會(huì)被訓(xùn)練集上的等效假設(shè)所迷惑,從而無法產(chǎn)生學(xué)習(xí)結(jié)果。
????實(shí)際上,算法在不同的問題和情況下好壞程度是不一樣的。換句話說,模型的總誤差與學(xué)習(xí)算法性能并沒有實(shí)際關(guān)系!(數(shù)學(xué)證明略 P8)。因?yàn)椴煌乃惴槍?duì)具體的問題會(huì)有相對(duì)的優(yōu)劣,一旦脫離了具體問題,空泛地談?wù)撃膫€(gè)算法更加優(yōu)秀是沒有意義的。
???總之,就是具體問題要具體分析。
四.發(fā)展歷程與應(yīng)用現(xiàn)狀
- 搜索引擎
- 生物工程
- 廣告推薦
- 自動(dòng)駕駛
- 總統(tǒng)競(jìng)選(=。=)