區(qū)別
函數(shù)上當(dāng)前點(diǎn)對(duì)應(yīng)的梯度方向是增大最快的方向,反方向是減小最快的方向
梯度上升
要計(jì)算的是函數(shù)的極大值,如最大化似然函數(shù),加上學(xué)習(xí)率 * 梯度
θ ? θ + α * ?????(??)
梯度下降
要計(jì)算的是函數(shù)的極小值,如最小化損失函數(shù),減去學(xué)習(xí)率 * 梯度
θ ? θ - α * ?????(??)
概念混淆使用
在某些地方可能說(shuō)是梯度下降,但是用的卻是加法,有兩種解釋:
- 減號(hào)代入了梯度中
- 梯度下降和梯度上升本質(zhì)上是一樣的,將梯度上升說(shuō)成了梯度下降
反之亦然
使用條件
某一點(diǎn)上梯度存在的必要條件:函數(shù)h(x)在該點(diǎn)可微且存在定義。
可微:設(shè)函數(shù)y= f(x),若自變量在點(diǎn)x的改變量Δx與函數(shù)相應(yīng)的改變量Δy有關(guān)系Δy=A×Δx+ο(Δx),其中A與Δx無(wú)關(guān),則稱函數(shù)f(x)在點(diǎn)x可微,并稱AΔx為函數(shù)f(x)在點(diǎn)x的微分,記作dy,即dy=A×Δx,當(dāng)x= x0時(shí),則記作dy∣x=x0。
可微的必要條件:
若函數(shù)在某點(diǎn)可微分,則函數(shù)在該點(diǎn)必連續(xù);
若二元函數(shù)在某點(diǎn)可微分,則該函數(shù)在該點(diǎn)對(duì)x和y的偏導(dǎo)數(shù)必存在
可微的充分條件:
若函數(shù)對(duì)x和y的偏導(dǎo)數(shù)在這點(diǎn)的某一鄰域內(nèi)都存在,且均在這點(diǎn)連續(xù),則該函數(shù)在這點(diǎn)可微。
缺點(diǎn)
- 靠近極小(大)值時(shí)速度減慢;
- 直線搜索可能會(huì)產(chǎn)生一些問(wèn)題;
- 可能會(huì)之字形下降(上升)。
參考:
https://baike.baidu.com/item/%E5%8F%AF%E5%BE%AE
http://www.cnblogs.com/hitwhhw09/p/4715030.html
https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95