線性回歸梳理

機器學習的一些概念

有監督:訓練數據的結果已被告知

無監督:不告訴結果,讓算法自行判斷

泛化能力:導入更多數據時是否還能近似得到正確結果,也是訓練模型模型適應新樣本的能力,評判一個學習算法的好壞。

過擬合:高方差,低偏差
解決辦法:使用正則化項

欠擬合:高偏差,低方差。這時增加樣本數量是沒用的。
解決辦法:增加特征

可以通過學習曲線判斷學習算法是處于欠擬合還是過擬合。

交叉驗證:機器學習中確定超參數的通用的方法,用以評價不同分類器的性能。
超參數:超參數是在開始學習過程之前設置值的參數,而不是通過訓練得到的參數數據。

線性回歸的原理:用線性模型盡可能擬合數據,預測一個連續輸出的值。

損失函數:一個樣本的誤差
代價函數:整個樣本集的誤差的平均值
目標函數:cost function + regularization

優化方法

梯度下降法:種求局部最優解的方法,對于F(x),在a點的梯度是F(x)增長最快的方向,那么它的負方向則是該點下降最快的方向,又稱最速下降法。


公式

牛頓法:利用迭代點求一階導數(梯度)和二階導數(Hessen矩陣)求解。牛頓法收斂速度相比梯度下降法很快,而且由于Hessen矩陣的的逆在迭代中不斷減小,起到逐漸縮小步長的效果。

擬牛頓法:不求二階偏導數,構造出一個近似的Hessen矩陣。

牛頓法和擬牛頓法都是無約束優化算法。

線性回歸的評估指標

均方誤差:


MSE

均方根誤差


RMSE

平均絕對誤差MAE:
MAE

R方:


R Squared

sklearn

sklearn是Scipy的擴展,建立在Numpy和matplolib庫的基礎上。
Scikit-learn(sklearn)是機器學習中常用的第三方模塊,對常用的機器學習方法進行了封裝,包括回歸(Regression)、降維(Dimensionality Reduction)、分類(Classfication)、聚類(Clustering)等方法。

官方文檔地址:https://scikit-learn.org/stable/

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容