sklearn-User Guide 監督學習-- 廣義線性模型(一)

下面的式子就是一個線性回歸,其目標值是輸入變量的線性組合,預測值可以表示為:


1.1.2 普通的最小二乘法

線性回歸的思路是:用線性系數w來模擬模型,通過調整系數的值,使得預測值和準確值之間的均方誤差最小。數學上可表示為:



下面為線性擬合的代碼及解釋:

#從sklearn中導入linear_model模塊包
>>> from sklearn import linear_model
#線性回歸類,并且實例化
>>> clf = linear_model.LinearRegression()
#調用fit方法進行擬合
#原型:clf.fit(X, y, sample_weight=None),其中X=[[0, 0], [1, 1], [2, 2]],y=[0,1,2]
>>> clf.fit ([[0, 0], [1, 1], [2, 2]],[0,1,2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
#得到w權值
>>> clf.coef_
array([ 0.5, 0.5])

然而,普通二乘法的系數估計依賴于模型各項的獨立性(這樣求解線性方程組才會有確切的解)。當矩陣的列之間是近似線性關系的時候,矩陣就是奇異的,導致在用最小二乘估計的時候就會產生隨機錯誤,產生較大的方差。這個地方是在選取特征的時候尤其應該注意的。

線性回歸舉例

為了得到回歸的二維圖,這個例子只用了糖尿病數據集的第一個特征。如圖所示,線性回歸嘗試畫一條直線,這條直線能夠使均方誤差最小。在下面也計算了系數、均方誤差、還有方差。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容