2019-07-24

Mechanical learning-Lecture4

Lecturer: Liming

1 統(tǒng)計機器學(xué)習(xí)

2 深度學(xué)習(xí)->連接主義(暗箱,易學(xué),但解釋)調(diào)包俠

擬合(連續(xù))eg,橫坐標(biāo):面積,縱坐標(biāo):房價,找到一條回歸函數(shù)
分類(離散)eg,垃圾郵件分類,垃圾分類
Hypothesis,h(x)=sign(W”T”+b) = {1, W”T”+b>0
{0, W”T”+b<0
注:T是轉(zhuǎn)置

感知機,SVM,邏輯回歸的本質(zhì)一樣,只是最優(yōu)分界面不一樣。
優(yōu)的標(biāo)準(zhǔn):不好的盡量小

1感知機

分錯到分界面的加和距離min,對0xx0誤解
W”T轉(zhuǎn)置”+b=0的一條線,法向量是W(->),

點到直線的距離=向量A·向量B/|向量B|=|向量A||向量B|cos<向量A , 向量B>/|向量B|=|向量A| cos<向量A , 向量B>
所以,
O是線外一點,P是線上的某點,點O到這條線的距離=<向量PO>乘<法向量W>/||法向量W||=(x01-x11, x02-y12)(W1,W2)/( W1,W2)

| W”T”+b|/ ||向量W||
Min求和{ | W”T”+b|/ ||法向量W|| }
優(yōu)化目標(biāo)化簡,min-求和 { | W”T”+b| y}, y∈(-1,1)
梯度是導(dǎo)數(shù),gradient decent梯度下降
求導(dǎo)梯度△W =偏導(dǎo)數(shù)J/偏導(dǎo)數(shù)W = 求和xy

普通的梯度下降再求解時是有問題的:只獲得局部最優(yōu)解,找到的是半山谷

解決方法:批量梯度下降,當(dāng)目標(biāo)函數(shù)為凸函數(shù)時,BGD一定能夠得到全局最優(yōu)解。
隨機梯度下降。步子大一點,增加解的不確定性和震蕩性,所以可能跳出局部最優(yōu)解。
相關(guān)數(shù)學(xué)背景,參考:https://www.cnblogs.com/lliuye/p/9451903.html

感知機只能做線性的,不能求解析解(只能通過迭代完成)。

2 SVM支持向量機

斜率是w算的,取離這條線最近的左右2點,來使margin盡可能大,在兩個最近點的中間
幾何間隔r=max(r(i))=max{ | W”T”+b|/ ||法向量W|| }
函數(shù)間隔r^(i)=| W”T”+b|

幾何間隔=Max{函數(shù)間隔/ ||法向量W||}
函數(shù)間隔=||W||幾何間隔

使||W||>1,r(i))=(W”T”+b)y,即(W”T”+b)y >1, 即max=1/|w|,即min1/2||W||

多分類,是多個二分類。
多個不等約束

擴展--拉格朗日:

假設(shè)模型:求原點到y(tǒng)=1/x 曲線的距離
等高線理論,f(x,y)=x2+y2
根據(jù)等高線理論,相切這一點(○和曲線),方向一致。
▽梯度
▽f(x,y)= λ▽g(x,y),這樣就把方向一致的信息描述進(jìn)去了。

偏導(dǎo)數(shù)的值=0
滿足s.t(subject to)g(x,y)=0
優(yōu)化m,約束n,轉(zhuǎn)變成無約束,但是需要優(yōu)化的變量是m+n個,沒有約束,就可以求導(dǎo)求解析解。

So,用拉格朗日求解min1/2||W||

對偶問題,KKT問題

邏輯回歸

原始的階躍函數(shù)不連續(xù),不可導(dǎo),所以轉(zhuǎn)換成概率的擬合,使用sigmoid function分選,早期機器學(xué)習(xí)activation function
P(y=1|x)和P(y=0|x)可以整合在一起。
P(y|x)=h(x)^y*(1- h(x))^(1-y)
累乘
機器學(xué)習(xí)的人喜歡min,所以加了一個負(fù)號
根據(jù)鏈?zhǔn)角髮?dǎo)法則,求導(dǎo),化簡特別簡單的▽W(xué)=求和x(i)(h(x)-y(i))

找到好的模型,最具有樣本代表性,聯(lián)合概率分布盡可能大。累乘形式的優(yōu)化目標(biāo),對數(shù)化,累乘變累加,鏈?zhǔn)角髮?dǎo)法則求導(dǎo),好看的結(jié)果,梯度下降,得到最優(yōu)解。

邏輯回歸是后驗概率。

H(x)擬合的是判別為1的概率,如果大于0.5,說明可以判別的1類。這是分的開,分的好不好取決于你相信的閾值,0.2-0.8。用驗證集去驗證。
概率的cutoff,是根據(jù)樣本的兩種已知情況的比例。

數(shù)據(jù)處理,理解數(shù)據(jù),特征向量找的好,決定了結(jié)果的上限。方法決定了結(jié)果的下限。

AUC分類問題評估。0.7以上入門,0.8可以接受,0.9好

補充

Q:SVM 離群點處理問題?
A:http://www.lxweimin.com/p/81eee8b1d374

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。