第八章 預測數值型數據:回歸(代碼)
-
線性回歸算法的優缺點
優點:結果容易理解,計算上下不復雜
缺點:對非線性問題數據處理不好.
使用數據類型:數值型和標稱型數據.
-
回歸方程
回歸方程(regression equation),回歸系數(regression weights),求回歸系數的過程就是回歸。說到回歸,一般都是指線性回歸(linear regression),還存在非線性回歸模型。
-
局部加權線性回歸
線性回歸會出現欠擬合現象,因為它求的是最小均方誤差的無偏估計。可以在估計中引入一些偏差,從而降低預測的均方誤差。其中一個方法是局部加權線性回歸(Locally Weighted Linear Regression,LWLR),該算法中給待測點附近的每個點賦予一定的權重,然后在這個子集上基于最小均方差來進行普通的回歸。與kNN一樣,此算法每次預測均需事先選取出對應的數據子集
-
縮減系數“理解”數據
若數據的特征比樣本點還多,在計算(XTX)?1的時候會出錯,也就是輸入數據的矩陣X不是滿秩矩陣,非滿秩矩陣在求逆是會出現問題。接下來介紹兩種方法來解決這個問題:嶺回歸(ridge regression)與前向逐步回歸(Forward stepwise regression),其中前向逐步回歸與lasso法效果差不多。
-
lasso
是一種壓縮估計。它通過構造一個懲罰函數得到一個較為精煉的模型,使得它壓縮一些系數,同時設定一些系數為零。因此保留了子集收縮的優點,是一種處理具有復共線性數據的有偏估計。
-
前向逐步回歸
前向逐步回歸算法與lasso效果差不多,屬于貪心算法,即每一步都盡可能減少誤差。一開始,所有的權重都設為1,然后每步所做的決策是對某個權重增加或減少一個很小的值。
逐步線性回歸算法的優點在于他可以幫助人們理解現有模型并作出改進。當構建一個模型后,可運行該算法找出重要特征,這樣就可以及時停止那些不重要特征的收集。最后,如果用于測試,該算法每100次迭代后就可以構建一個模型,可使用類似于10折交叉驗證的方法比較這些模型,最終選擇使誤差最小的模型。
當應用縮減方法(逐步線性回歸或嶺回歸)時,模型也就增加了偏差(bias),與此同時卻減小了模型的方差。
-
權衡偏差與誤差
模型和測量值之間存在的差異,叫做誤差。當考慮模型中的“噪聲”或者說誤差時,必須考慮其來源。
對復雜的過程簡化,會導致模型和測量值之間出現“噪聲”和誤差。
無法理解數據的真實生成過程,也會導致差異的發生。
測量過程本身也可能產生“噪聲”或問題。
-
小節
與分類一樣,回歸也是預測目標值的過程
當數據的樣本數比特征樹還少的時候,矩陣的逆不能直接計算
嶺回歸是縮減法的一種,相當于回歸系數的大小施加了限制
縮減法還可以看作是一個對模型增加偏差的同時減少方差