梯度下降法
5a4e0890-2e8d-11e8-8ff0-5b0a81ffa130.png
1551880652602.jpg
超參
上面講了梯度下降法,其中的
α
,又叫做步長,它決定了為了找到最小值點而嘗試在目標函數上前進的步伐到底走多大。
步長是算法自己學習不出來的,它必須由外界指定。
這種算法不能學習,需要人為設定的參數,就叫做超參數
梯度下降的難點
可能會出現走到了一個局部極小值就無法前進的情況
883d5f30-2e8d-11e8-a3a4-1b4a4113bab5.jpeg
如果目標函數不能確定只有一個極小值,而獲得的模型結果又不令人滿意時,就該考慮是否是在學習的過程中,優化算法進入了局部而非全局最小值。
這種情況下,可以嘗試幾個不同的起始點。甚至嘗試一下大步長,說不定反而能夠跨出局部最小值點所在的凸域。