前言
上次只是籠統(tǒng)的概述了機(jī)器學(xué)習(xí)是什么以及能解決什么問題,這一篇就開始正式探討機(jī)器學(xué)習(xí)使用的算法了。
背景
假如我們有一組數(shù)據(jù),它是關(guān)于房子的大小和最終成交價(jià)格的數(shù)據(jù)。我們最后要做到的就是通過(guò)讓機(jī)器對(duì)這些數(shù)據(jù)的‘學(xué)習(xí)’,最后能對(duì)新的房子也能正確預(yù)測(cè)出它大概的成交價(jià)格。
如何進(jìn)行預(yù)測(cè)
現(xiàn)在假設(shè)x,y變量,x表示房子的面積,y表示房子的成交價(jià)格。那么每個(gè)房子的(x,y)就對(duì)應(yīng)坐標(biāo)軸上的一個(gè)點(diǎn)。例如房子面積是100,價(jià)格1000000。那么這個(gè)點(diǎn)就是(100,1000000)。把這些點(diǎn)都畫在坐標(biāo)軸上就會(huì)得到如下的樣子
對(duì)于這么大堆密密麻麻的點(diǎn),下一步該做什么呢,既然有x又有y,能不能找出x和y之間的關(guān)聯(lián),換句話說(shuō)就是找到個(gè)函數(shù)能盡可能多的擬合這些點(diǎn),讓這些點(diǎn)盡可能多的落在我們的線上。這就是線性回歸(概率論大佬正在趕來(lái)QAQ)。
所以擬合后的樣子應(yīng)該是這樣的
可以看到這條線已經(jīng)讓盡可能多的點(diǎn)落在了它身上。說(shuō)到這里,如何進(jìn)行預(yù)測(cè)是不是就變得顯而易見了。只要找到這樣一條直線,盡可能多的擬合了自己的數(shù)據(jù),那么對(duì)于新來(lái)的x值,它在圖上的坐標(biāo)就確定了,也就是y(房?jī)r(jià))確定了(換句話說(shuō)也就是找到y(tǒng)關(guān)于x的函數(shù)啦,就像y=10+x這樣)。那么我們的這個(gè)模型就可以比較正確預(yù)測(cè)房?jī)r(jià)了。想想還有點(diǎn)小激動(dòng)呢~
對(duì)于這個(gè)模型需要注意什么
由上面的圖其實(shí)不難看出來(lái),還是有部分的點(diǎn)偏離在我們的線外面的。但是我們畢竟不可能找到符合所有點(diǎn)的函數(shù),只能少數(shù)服從多數(shù),對(duì)于偏離的點(diǎn),我們不需要在意他們(還可以用一些曲線來(lái)擬合,不過(guò)這里只用線性的)。基于這個(gè)原因,模型成熟后,對(duì)于新房?jī)r(jià)的預(yù)測(cè)只是大概的,可以理解為它只是代表了一個(gè)趨勢(shì),房子面積越大,它的價(jià)格就越高。只不過(guò)我們基于這個(gè)趨勢(shì),可以給出大約的預(yù)測(cè)值。
結(jié)尾
對(duì)于這些枯燥的東西,并不想一口氣寫一堆,看到就讓人難受。所以這篇文章還并不算真正開始學(xué)習(xí)了它的算法。下面就會(huì)開始真正進(jìn)入算法的細(xì)節(jié),當(dāng)模型處于初始狀態(tài)怎樣判斷它與我們的最終模型有多大差距呢,以及如何縮小這些差距,這都是需要解決的問題。當(dāng)這兩個(gè)問題解決了,那么我們的模型就會(huì)逐漸變得成熟,預(yù)測(cè)房?jī)r(jià),登上人生巔峰指日可待~
這些都是基于我最近自己學(xué)習(xí)整理的,希望加強(qiáng)自己的理解,也方便以后查看。希望大佬目睹過(guò)后給予指正。