四虎影院176,激情综合五月丁香五月激情,国产人妖视频一区二区

回歸

機器學習算法按照目標變量的類型，分為標稱型數據和連續型數據。標稱型數據類似于標簽型的數據，而對于它的預測方法稱為分類，連續型數據類似于預測的結果為一定范圍內的連續值，對于它的預測方法稱為回歸。

“回歸”一詞比較晦澀，下面說一下這個詞的來源：

“回歸”一詞是由達爾文的表兄弟Francis Galton發明的。Galton于1877年完成了第一次回歸預測，目的是根據上一代豌豆種子（雙親）的尺寸來預測下一代豌豆種子（孩子）的尺寸。 Galton在大量對象上應用了回歸分析，甚至包括人的身高預測。他注意到，如果雙親的高高度比平均高度高，他們的子女也傾向于比平均高度高，但尚不及雙親（筆者感覺未必，Galton并未考慮物質條件的發展會帶來整體身高的增加，至少筆者感覺80,90的人普遍比父母高）。孩子的高度向著平均高度“回歸”。

類型

回歸按照方法可分為線性回歸和非線性回歸。線性回歸適用線性方程來擬合曲線進行預測。在非線性回歸中，特征之間出現非線性操作的可能性（比如相乘或者相除）。非線性回歸中有種特殊的類型--邏輯回歸，和線性回歸不同的是，它屬于“分類”的問題，這是由于它適用曲線擬合的方式來解決分類問題，所以也被稱為回歸。

線性回歸

原理簡介

線性回歸衡量的是兩個變量之間的關系，最直接的辦法就是求得一個回歸方程（regression equation），將已知條件x代入方程得到預測結果y。

假設我們獲取到一個地區過去一段時間內的房價走勢情況，我們根據下面的公式進行評估：

上面的式子可以看到房價和房屋面積、房子朝向呈線性的關系。而求該方程的過程稱為回歸方程，其中0.7和0.19稱為回歸系數，面積和房子的朝向稱為特征。

可以看到“回歸”問題最重要的是如何獲得回歸方程，如果得到該方程后，所有的一切問題將迎刃而解。

假如我們用X(m×n)來表示特征的矩陣，回歸系數用θ(n×1)來表示，預測結果由Y=Xθ獲得。在實際應用中，我們通常認為能帶來最小平方誤差的θ就是我們所要尋找的回歸系數向量。平方誤差指的是預測值與真實值的差的平方，這種方法就稱為“最小二乘法”。所以回歸問題轉化為如何求最小平方誤差，即目標函數為：

求該函數的方法很多，在此介紹一種方法：

對θ求導：該矩陣還可以寫成

，如果對θ求導，就會得到

倒數為0，求出θ

注意，上述公式中包含

，也就是需要對矩陣求逆。因此這個方程只在逆矩陣存在的情況下適用。

應用

上面講解了線性回歸的原理，那如何將上面的算法應用到現實的場景中呢？我們使用python語言將上述的算法實現了一遍：

defstandRegres(xArr,yArr):xMat = mat(xArr); yMat = mat(yArr).T? ? xTx = xMat.T*xMat# #判斷是否存在逆矩陣iflinalg.det(xTx) ==0.0:print"This matrix is singular, cannot do inverse"returnws = xTx.I * (xMat.T*yMat)returnws

得到回歸系數后，還需要乘以特征值后得到預測值。

大家會說python不是以算法包的種類多而出名嗎？有現成的算法庫，我干嘛還要自己去實現算法呢。當然，python里面有sklearn包中有現成的linear_model的函數可以供大家使用，而且使用方法特別簡單：

導入算法包

fromsklearnimportdatasets, linear_model

訓練模型

regr= linear_model.LinearRegression()regr.fit(x, mydata)

預測

predict_outcome= regr.predict(x)

模型評估

基本上所有的數據集都可以使用上述的方法建立模型，那么，如何來判斷模型的好壞呢？如果比較一下下面兩個圖，如果在這兩個數據集上做線性回歸，那么效果肯定不相同。

圖1 具有相同回歸系數的兩組數據的對比

我們可以計算預測值和真實值之間的誤差，也就是計算這兩個序列的相關系數，來評價模型的好壞。

python中，Numpy庫提供了相關系數的計算方法corrcoef(yEstimate,yActual)來計算預測值和真實值之間的相關性。可以看出具有相同回歸系數的兩組數據，上圖的相關系數是0.58，而下圖的相關系數是0.99，則可以說明該回歸系數對下圖使用的數據集效果要好。

局部加權線性回歸

前一節我們用普通的線性回歸在遇到圖1的上圖時候就會出現嚴重的欠擬合現象，這種現象在圖1的下圖也會反映出來。解決這種欠擬合的問題最直接的方法是犧牲普通線性回歸的無偏估計方法，轉為有偏估計，對預測點的周圍節點賦予不同的權值。離預測點近的點賦予較高的權值，反之則賦予低的權值。這種通過改變權值的方法就叫做局部加權線性回歸。

該算法解出來回歸系數的形式為：