第九章 最常用的模型優化算法——梯度下降法

梯度下降法

5a4e0890-2e8d-11e8-8ff0-5b0a81ffa130.png
1551880652602.jpg

超參

上面講了梯度下降法,其中的
α
,又叫做步長,它決定了為了找到最小值點而嘗試在目標函數上前進的步伐到底走多大。
步長是算法自己學習不出來的,它必須由外界指定。
這種算法不能學習,需要人為設定的參數,就叫做超參數

梯度下降的難點

可能會出現走到了一個局部極小值就無法前進的情況


883d5f30-2e8d-11e8-a3a4-1b4a4113bab5.jpeg

如果目標函數不能確定只有一個極小值,而獲得的模型結果又不令人滿意時,就該考慮是否是在學習的過程中,優化算法進入了局部而非全局最小值。

這種情況下,可以嘗試幾個不同的起始點。甚至嘗試一下大步長,說不定反而能夠跨出局部最小值點所在的凸域。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容