回歸(Regression)

回歸(Linear Regression)

一、基礎(chǔ)

1.模型,(構(gòu)建的模型可)用來(lái)描述現(xiàn)實(shí)中的問(wèn)題或數(shù)據(jù),即現(xiàn)實(shí)中的問(wèn)題或數(shù)據(jù)的一種量化方式(數(shù)學(xué)化統(tǒng)計(jì)化),目的是通過(guò)模型更好地解決現(xiàn)實(shí)中的問(wèn)題或發(fā)現(xiàn)數(shù)據(jù)的規(guī)律;

模型選擇或建立后,用訓(xùn)練數(shù)據(jù)求模型中的參數(shù)Θ;怎么求?

通過(guò)構(gòu)造目標(biāo)函數(shù)(即代價(jià)函數(shù)),并求使目標(biāo)函數(shù)的數(shù)值最小時(shí),參數(shù)Θ的值(部分構(gòu)造

目標(biāo)函數(shù)的過(guò)程可用極大似然估計(jì)來(lái)構(gòu)造或解釋);

運(yùn)用某些算法,如梯度下降算法,正規(guī)方程等,求出參數(shù)Θ的值;

若存在超參數(shù),則需要于驗(yàn)證數(shù)據(jù)進(jìn)行人工調(diào)參,也有某些算法進(jìn)行調(diào)參,如枚舉法、遺傳法等;

最后通過(guò)測(cè)試數(shù)據(jù)來(lái)評(píng)價(jià)模型的優(yōu)劣;

應(yīng)用于實(shí)際問(wèn)題。

2.機(jī)器學(xué)習(xí)的數(shù)據(jù)分為:

訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)集;


二、線性回歸(Linear Regression)

1.線性回歸:解決預(yù)測(cè)問(wèn)題、標(biāo)簽(Y)為連續(xù)值;

2.模型表示:XXX

模型選擇:

通過(guò)可視化觀察數(shù)據(jù)的特征;

直接通過(guò)內(nèi)在邏輯選擇合適的模型;

3.目標(biāo)函數(shù)(代價(jià)函數(shù)):XXX

4.求參數(shù)Θ的取值,使目標(biāo)函數(shù)最小的算法:

(1)梯度下降算法:

可求局部最小值,當(dāng)目標(biāo)函數(shù)為凸函數(shù)時(shí)可得全局最小值;

存在超參數(shù):α;

(2)正規(guī)方程:矩陣需可逆;

(3)其他算法;


三、邏輯回歸(Logistic Regression)

1.邏輯回歸:解決分類問(wèn)題、標(biāo)簽(Y)為離散值;

2.模型表示:XXX

3.目標(biāo)函數(shù)(代價(jià)函數(shù)):XXX

4.求參數(shù)Θ的取值,使目標(biāo)函數(shù)最小的算法:

(1)梯度下降算法;

(2)其他算法:

Conjugate gradient 共軛梯度法

BFGS 變尺度法

L-BFGS 限制變尺度法

等等;

5.多分類問(wèn)題:

(1)一對(duì)余方法,構(gòu)建多個(gè)分類器;

(2)Softmax回歸;


四、正則化

1.模型常見(jiàn)問(wèn)題

欠擬合:高偏差;

過(guò)擬合:高方差;

于模型精度和泛化能力兩者之間權(quán)衡;

2.正則化技術(shù):

目的:防止過(guò)擬合,減小參數(shù)Θ的值;

方法:通過(guò)修改目標(biāo)函數(shù):XXX

(1)Ridge回歸、L2-Norm:

超參數(shù):λ;平方和;

一般地,性能優(yōu)于Lasso回歸,但Lasso回歸有特征選擇功能;

(2)Lasso回歸、L1-Norm:

超參數(shù):λ;絕對(duì)值加和;

有特征選擇功能、起到降維作用;

(3)Elastic Net;

兩者綜合;超參數(shù):λ、ρ;


五、模型的評(píng)價(jià)指標(biāo):

1.MSE(均方誤差);

2.R的平方(擬合優(yōu)度);

3.AUC、ROC;

4.其他;


六、特征的選擇和處理

1.特征縮放、特征歸一化;

2.降維:PCA技術(shù)(主成分分析)等;

3.數(shù)據(jù)預(yù)處理;

4.其他;


七、關(guān)于梯度下降算法

1.BGD:批量梯隊(duì)下降算法;

2.SGD:隨機(jī)梯度下降算法;

3.Mini-batch SGD:小批量隨機(jī)梯度下降算法;

4.超參數(shù):α(學(xué)習(xí)率);


八、實(shí)踐

1.廣告通過(guò)不同渠道的投放所產(chǎn)生的效果的預(yù)測(cè)(廣告不同渠道的花費(fèi)與銷售額的關(guān)系);

預(yù)測(cè)問(wèn)題:線性回歸模型;

正則化技術(shù)的比較;


2.鳶尾花的分類;

分類問(wèn)題:邏輯回歸模型;


3.波士頓的房?jī)r(jià)的預(yù)測(cè);

預(yù)測(cè)問(wèn)題:線性回歸模型;


4.航空公司某航班乘客的人數(shù)預(yù)測(cè);

預(yù)測(cè)問(wèn)題:線性回歸模型:時(shí)間相關(guān):時(shí)間序列模型:自回歸模型:ARIMA模型;

自回歸模型也應(yīng)用于:股價(jià)預(yù)測(cè);


5.ROC與AUC(模型評(píng)價(jià)指標(biāo))

(1)ROC、AUC的基礎(chǔ);

(2)各模型于鳶尾花分類問(wèn)題上的:ROC與AUC;


九、問(wèn)題:

1.實(shí)踐中的代碼細(xì)節(jié);

2.理論知識(shí)體系:參考周志華的《機(jī)器學(xué)習(xí)》;

3.其他;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容