VIEDO |
---|
[機(jī)器學(xué)習(xí)入門] 李宏毅機(jī)器學(xué)習(xí)筆記-3 (Gradient Descent ;梯度下降)
VIEDO |
---|
Review
這里寫圖片描述
這里寫圖片描述
梯度下降的三個小貼士
Tip 1 Tuning your learning rates
這里寫圖片描述
- 最流行也是最簡單的做法就是:在每一輪都通過一些因子來減小learning rate。
- 最開始時,我們距離最低點很遠(yuǎn),所以我們用較大的步長。
- 經(jīng)過幾輪后,我們接近了最低點,所以我們減少learning rate。
- 比如: 1/t 衰減: $η^n=\frac{η}{\sqrt {t+1}}$
- learning rate 不能從一而終
- 要給不同的參數(shù)設(shè)置不同的learning rate。
為了達(dá)到此目的,有許多種技巧,而Adagrad就是一種不錯的選擇。
Adagrad
這里寫圖片描述
這樣操作后,每組參數(shù)的learning rate 都不同。
舉個例子:
這里寫圖片描述
所以用Adagrad后,我們的參數(shù)變化要寫成這樣:
這里寫圖片描述
Adagrad越到后面改變會越慢,這是一個正常現(xiàn)象。
Q:有沒有奇怪的地方??是否有所沖突??
這里寫圖片描述
這里寫圖片描述
這里寫圖片描述
這里寫圖片描述
這里寫圖片描述
Tip 2:Stochastic Gradient Descent
讓你的Training更快一點!
這里寫圖片描述
這里寫圖片描述
Tip 3 : Feature Scaling
讓不同的特征值具有相同的縮放程度。
這里寫圖片描述
這里寫圖片描述
這里寫圖片描述