梯度上升和梯度下降

區(qū)別

函數(shù)上當(dāng)前點(diǎn)對(duì)應(yīng)的梯度方向是增大最快的方向,反方向是減小最快的方向

梯度上升

要計(jì)算的是函數(shù)的極大值,如最大化似然函數(shù),加上學(xué)習(xí)率 * 梯度
θ ? θ + α * ?????(??)

梯度下降

要計(jì)算的是函數(shù)的極小值,如最小化損失函數(shù),減去學(xué)習(xí)率 * 梯度
θ ? θ - α * ?????(??)

概念混淆使用

在某些地方可能說(shuō)是梯度下降,但是用的卻是加法,有兩種解釋:

  1. 減號(hào)代入了梯度中
  2. 梯度下降和梯度上升本質(zhì)上是一樣的,將梯度上升說(shuō)成了梯度下降

反之亦然

使用條件

某一點(diǎn)上梯度存在的必要條件:函數(shù)h(x)在該點(diǎn)可微且存在定義。

可微:設(shè)函數(shù)y= f(x),若自變量在點(diǎn)x的改變量Δx與函數(shù)相應(yīng)的改變量Δy有關(guān)系Δy=A×Δx+ο(Δx),其中A與Δx無(wú)關(guān),則稱函數(shù)f(x)在點(diǎn)x可微,并稱AΔx為函數(shù)f(x)在點(diǎn)x的微分,記作dy,即dy=A×Δx,當(dāng)x= x0時(shí),則記作dy∣x=x0。

可微的必要條件:
若函數(shù)在某點(diǎn)可微分,則函數(shù)在該點(diǎn)必連續(xù);
若二元函數(shù)在某點(diǎn)可微分,則該函數(shù)在該點(diǎn)對(duì)x和y的偏導(dǎo)數(shù)必存在

可微的充分條件:
若函數(shù)對(duì)x和y的偏導(dǎo)數(shù)在這點(diǎn)的某一鄰域內(nèi)都存在,且均在這點(diǎn)連續(xù),則該函數(shù)在這點(diǎn)可微。

缺點(diǎn)

  1. 靠近極小(大)值時(shí)速度減慢;
  2. 直線搜索可能會(huì)產(chǎn)生一些問(wèn)題;
  3. 可能會(huì)之字形下降(上升)。

參考:
https://baike.baidu.com/item/%E5%8F%AF%E5%BE%AE
http://www.cnblogs.com/hitwhhw09/p/4715030.html
https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。