〇、說(shuō)明
凸優(yōu)化主要學(xué)習(xí)《凸優(yōu)化》(Stephen Boyd等著,王書(shū)寧等譯)[1]這本書(shū)。學(xué)習(xí)過(guò)程中,對(duì)其內(nèi)容的理解時(shí)有困惑,也參考一些其他書(shū)籍資料。筆者盡量將這部分知識(shí)整理地簡(jiǎn)潔明了,成此系列筆記。
如有錯(cuò)誤疏漏,煩請(qǐng)指出。如要轉(zhuǎn)載,請(qǐng)聯(lián)系筆者,hpfhepf@gmail.com。
一、簡(jiǎn)介
用目標(biāo)函數(shù)的二階泰勒展開(kāi)近似該目標(biāo)函數(shù),通過(guò)求解這個(gè)二次函數(shù)的極小值來(lái)求解凸優(yōu)化的搜索方向。
二、推導(dǎo)
2.1、牛頓法推導(dǎo)
2.2、Hessian范數(shù)下的最速下降方法
這從另一個(gè)角度揭示了為什么Newton步徑是好的搜索方向了。
這里我沒(méi)有去查找證明過(guò)程,我覺(jué)得只要知道就可以了,因?yàn)檫@有助于理解最速下降方法(《凸優(yōu)化(六)——最速下降法》)。
三、優(yōu)勢(shì)
在實(shí)際應(yīng)用中,牛頓法往往比梯度下降法有更少的迭代次數(shù)。
2.2已經(jīng)從一個(gè)角度說(shuō)明了Newton步徑是好的搜索方向。
知乎問(wèn)答《最優(yōu)化問(wèn)題中,牛頓法為什么比梯度下降法求解需要的迭代次數(shù)更少?》[2]這篇也講了一些,其中,排名第一的引自Wiki的“從幾何上說(shuō),牛頓法就是用一個(gè)二次曲面去擬合你當(dāng)前所處位置的局部曲面,而梯度下降法是用一個(gè)平面去擬合當(dāng)前的局部曲面,通常情況下,二次曲面的擬合會(huì)比平面更好,所以牛頓法選擇的下降路徑會(huì)更符合真實(shí)的最優(yōu)下降路徑”,比較有說(shuō)服力和概括性。
圖2形象地說(shuō)明了牛頓法和梯度下降法的區(qū)別,紅色為牛頓方法搜索路徑,綠色為梯度下降法搜索路徑。
四、擬牛頓法
牛頓法需要計(jì)算目標(biāo)函數(shù)Hessian矩陣的逆矩陣,運(yùn)算復(fù)雜度太高,計(jì)算效率很低,尤其維數(shù)很大時(shí)。擬牛頓算法的核心思想用一個(gè)近似矩陣替代逆Hessian矩陣。
五、等式約束的牛頓法
附錄
A、參考
[1]、《凸優(yōu)化》,Stephen Boyd等著,王書(shū)寧等譯
[2]、《最優(yōu)化問(wèn)題中,牛頓法為什么比梯度下降法求解需要的迭代次數(shù)更少?》
B、相關(guān)目錄
凸優(yōu)化(七)——牛頓法
凸優(yōu)化(八)——Lagrange對(duì)偶問(wèn)題
C、時(shí)間線
2016-08-08 第一次發(fā)布