機器學習的一些概念
有監督:訓練數據的結果已被告知
無監督:不告訴結果,讓算法自行判斷
泛化能力:導入更多數據時是否還能近似得到正確結果,也是訓練模型模型適應新樣本的能力,評判一個學習算法的好壞。
過擬合:高方差,低偏差
解決辦法:使用正則化項
欠擬合:高偏差,低方差。這時增加樣本數量是沒用的。
解決辦法:增加特征
可以通過學習曲線判斷學習算法是處于欠擬合還是過擬合。
交叉驗證:機器學習中確定超參數的通用的方法,用以評價不同分類器的性能。
超參數:超參數是在開始學習過程之前設置值的參數,而不是通過訓練得到的參數數據。
線性回歸的原理:用線性模型盡可能擬合數據,預測一個連續輸出的值。
損失函數:一個樣本的誤差
代價函數:整個樣本集的誤差的平均值
目標函數:cost function + regularization
優化方法
梯度下降法:種求局部最優解的方法,對于F(x),在a點的梯度是F(x)增長最快的方向,那么它的負方向則是該點下降最快的方向,又稱最速下降法。
公式
牛頓法:利用迭代點求一階導數(梯度)和二階導數(Hessen矩陣)求解。牛頓法收斂速度相比梯度下降法很快,而且由于Hessen矩陣的的逆在迭代中不斷減小,起到逐漸縮小步長的效果。
擬牛頓法:不求二階偏導數,構造出一個近似的Hessen矩陣。
牛頓法和擬牛頓法都是無約束優化算法。
線性回歸的評估指標
均方誤差:
MSE
均方根誤差
RMSE
平均絕對誤差MAE:
MAE
R方:
R Squared
sklearn
sklearn是Scipy的擴展,建立在Numpy和matplolib庫的基礎上。
Scikit-learn(sklearn)是機器學習中常用的第三方模塊,對常用的機器學習方法進行了封裝,包括回歸(Regression)、降維(Dimensionality Reduction)、分類(Classfication)、聚類(Clustering)等方法。