回歸(Linear Regression)
一、基礎(chǔ)
1.模型,(構(gòu)建的模型可)用來(lái)描述現(xiàn)實(shí)中的問(wèn)題或數(shù)據(jù),即現(xiàn)實(shí)中的問(wèn)題或數(shù)據(jù)的一種量化方式(數(shù)學(xué)化統(tǒng)計(jì)化),目的是通過(guò)模型更好地解決現(xiàn)實(shí)中的問(wèn)題或發(fā)現(xiàn)數(shù)據(jù)的規(guī)律;
模型選擇或建立后,用訓(xùn)練數(shù)據(jù)求模型中的參數(shù)Θ;怎么求?
通過(guò)構(gòu)造目標(biāo)函數(shù)(即代價(jià)函數(shù)),并求使目標(biāo)函數(shù)的數(shù)值最小時(shí),參數(shù)Θ的值(部分構(gòu)造
目標(biāo)函數(shù)的過(guò)程可用極大似然估計(jì)來(lái)構(gòu)造或解釋);
運(yùn)用某些算法,如梯度下降算法,正規(guī)方程等,求出參數(shù)Θ的值;
若存在超參數(shù),則需要于驗(yàn)證數(shù)據(jù)進(jìn)行人工調(diào)參,也有某些算法進(jìn)行調(diào)參,如枚舉法、遺傳法等;
最后通過(guò)測(cè)試數(shù)據(jù)來(lái)評(píng)價(jià)模型的優(yōu)劣;
應(yīng)用于實(shí)際問(wèn)題。
2.機(jī)器學(xué)習(xí)的數(shù)據(jù)分為:
訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)集;
二、線性回歸(Linear Regression)
1.線性回歸:解決預(yù)測(cè)問(wèn)題、標(biāo)簽(Y)為連續(xù)值;
2.模型表示:XXX
模型選擇:
通過(guò)可視化觀察數(shù)據(jù)的特征;
直接通過(guò)內(nèi)在邏輯選擇合適的模型;
3.目標(biāo)函數(shù)(代價(jià)函數(shù)):XXX
4.求參數(shù)Θ的取值,使目標(biāo)函數(shù)最小的算法:
(1)梯度下降算法:
可求局部最小值,當(dāng)目標(biāo)函數(shù)為凸函數(shù)時(shí)可得全局最小值;
存在超參數(shù):α;
(2)正規(guī)方程:矩陣需可逆;
(3)其他算法;
三、邏輯回歸(Logistic Regression)
1.邏輯回歸:解決分類問(wèn)題、標(biāo)簽(Y)為離散值;
2.模型表示:XXX
3.目標(biāo)函數(shù)(代價(jià)函數(shù)):XXX
4.求參數(shù)Θ的取值,使目標(biāo)函數(shù)最小的算法:
(1)梯度下降算法;
(2)其他算法:
Conjugate gradient 共軛梯度法
BFGS 變尺度法
L-BFGS 限制變尺度法
等等;
5.多分類問(wèn)題:
(1)一對(duì)余方法,構(gòu)建多個(gè)分類器;
(2)Softmax回歸;
四、正則化
1.模型常見(jiàn)問(wèn)題
欠擬合:高偏差;
過(guò)擬合:高方差;
于模型精度和泛化能力兩者之間權(quán)衡;
2.正則化技術(shù):
目的:防止過(guò)擬合,減小參數(shù)Θ的值;
方法:通過(guò)修改目標(biāo)函數(shù):XXX
(1)Ridge回歸、L2-Norm:
超參數(shù):λ;平方和;
一般地,性能優(yōu)于Lasso回歸,但Lasso回歸有特征選擇功能;
(2)Lasso回歸、L1-Norm:
超參數(shù):λ;絕對(duì)值加和;
有特征選擇功能、起到降維作用;
(3)Elastic Net;
兩者綜合;超參數(shù):λ、ρ;
五、模型的評(píng)價(jià)指標(biāo):
1.MSE(均方誤差);
2.R的平方(擬合優(yōu)度);
3.AUC、ROC;
4.其他;
六、特征的選擇和處理
1.特征縮放、特征歸一化;
2.降維:PCA技術(shù)(主成分分析)等;
3.數(shù)據(jù)預(yù)處理;
4.其他;
七、關(guān)于梯度下降算法
1.BGD:批量梯隊(duì)下降算法;
2.SGD:隨機(jī)梯度下降算法;
3.Mini-batch SGD:小批量隨機(jī)梯度下降算法;
4.超參數(shù):α(學(xué)習(xí)率);
八、實(shí)踐
1.廣告通過(guò)不同渠道的投放所產(chǎn)生的效果的預(yù)測(cè)(廣告不同渠道的花費(fèi)與銷售額的關(guān)系);
預(yù)測(cè)問(wèn)題:線性回歸模型;
正則化技術(shù)的比較;
2.鳶尾花的分類;
分類問(wèn)題:邏輯回歸模型;
3.波士頓的房?jī)r(jià)的預(yù)測(cè);
預(yù)測(cè)問(wèn)題:線性回歸模型;
4.航空公司某航班乘客的人數(shù)預(yù)測(cè);
預(yù)測(cè)問(wèn)題:線性回歸模型:時(shí)間相關(guān):時(shí)間序列模型:自回歸模型:ARIMA模型;
自回歸模型也應(yīng)用于:股價(jià)預(yù)測(cè);
5.ROC與AUC(模型評(píng)價(jià)指標(biāo))
(1)ROC、AUC的基礎(chǔ);
(2)各模型于鳶尾花分類問(wèn)題上的:ROC與AUC;
九、問(wèn)題:
1.實(shí)踐中的代碼細(xì)節(jié);
2.理論知識(shí)體系:參考周志華的《機(jī)器學(xué)習(xí)》;
3.其他;