寫在前面:五一小長假臨近結(jié)束的最后一天對上周新學(xué)的機(jī)器學(xué)習(xí)的內(nèi)容進(jìn)行下總結(jié),一方面鞏固下新知識,另一方面為迎接節(jié)后依然繁重的工作準(zhǔn)備一個(gè)良好的心態(tài)基礎(chǔ)。上一篇的總結(jié)中講到先從吳恩達(dá)老師的機(jī)器學(xué)習(xí)的斯坦福公開課開始對機(jī)器學(xué)習(xí)的基礎(chǔ)性知識進(jìn)行下了解,果不其然,“不允許這么牛逼的人存在”,哈哈哈??,新手到大神之路,灰常漫長,課程的理論知識如果不做總結(jié)的話,極易懵逼!在此,進(jìn)行總結(jié),講道理,好記性不如爛筆頭,多寫寫沒有壞處!
現(xiàn)在開始(第一課內(nèi)容):
1、機(jī)器學(xué)習(xí)的定義:
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,目標(biāo)是賦予機(jī)器一種新的能力。即專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
機(jī)器學(xué)習(xí)的應(yīng)用很廣泛,例如大規(guī)模的數(shù)據(jù)挖掘(網(wǎng)頁點(diǎn)擊數(shù)據(jù),醫(yī)療記錄等),無人駕駛飛機(jī)、汽車,手寫手別,大多數(shù)的自然語言處理任務(wù),計(jì)算機(jī)視覺,圖像識別,推薦系統(tǒng)等
2、什么是監(jiān)督學(xué)習(xí)?
監(jiān)督學(xué)習(xí)是對具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的岐義性低。
監(jiān)督學(xué)習(xí)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹的最常見技術(shù)。這兩種技術(shù)(神經(jīng)網(wǎng)絡(luò)和決策樹)高度依賴于事先確定的分類系統(tǒng)給出的信息。分類、回歸都是監(jiān)督學(xué)習(xí)的內(nèi)容。
栗子1----房屋價(jià)格預(yù)測-回歸(Regression): 預(yù)測連續(xù)的輸出值(價(jià)格)
栗子2----乳腺癌(良性,惡性)預(yù)測問題-分類(Classification):預(yù)測離散的輸出值(0, 1)
3、什么是無監(jiān)督學(xué)習(xí)?
對沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。常見的無監(jiān)督學(xué)習(xí)算法有聚類。
在無監(jiān)督學(xué)習(xí)中,我們已知的數(shù)據(jù),看上去有點(diǎn)不一樣,不同于監(jiān)督學(xué)習(xí)的數(shù)據(jù)的樣子,即無監(jiān)督學(xué)習(xí)中沒有任何的標(biāo)簽或者是有相同的標(biāo)簽。針對數(shù)據(jù)集,無監(jiān)督學(xué)習(xí)就能判斷出數(shù)據(jù)有兩個(gè)不同的聚集簇。無監(jiān)督學(xué)習(xí)算法可能會把這些數(shù)據(jù)分成兩個(gè)不同的簇。所以叫做聚類算法,它能被用在很多地方。
無監(jiān)督學(xué)習(xí)有著大量的應(yīng)用。它用于組織大型計(jì)算機(jī)集群。第二種應(yīng)用就是社交網(wǎng)絡(luò)的分析。還有市場分割。許多公司有大型的數(shù)據(jù)庫,存儲消費(fèi)者信息。所以,你能檢索這些顧客數(shù)據(jù)集,自動(dòng)地發(fā)現(xiàn)市場分類,并自動(dòng)地把顧客劃分到不同的細(xì)分市場中,你才能自動(dòng)并更有效地銷售或不同的細(xì)分市場一起進(jìn)行銷售。最后,無監(jiān)督學(xué)習(xí)也可用于天文數(shù)據(jù)分析,這些聚類算法給出了令人驚訝、有趣、有用的理論,解釋了星系是如何誕生的。這些都是聚類的例子,聚類只是無監(jiān)督學(xué)習(xí)中的一種。