[機(jī)器學(xué)習(xí)入門] 李宏毅機(jī)器學(xué)習(xí)筆記-3 (Gradient Descent ;梯度下降)

PDF VIEDO

[機(jī)器學(xué)習(xí)入門] 李宏毅機(jī)器學(xué)習(xí)筆記-3 (Gradient Descent ;梯度下降)

PDF VIEDO

Review

這里寫圖片描述

這里寫圖片描述

梯度下降的三個小貼士


Tip 1 Tuning your learning rates

這里寫圖片描述
  • 最流行也是最簡單的做法就是:在每一輪都通過一些因子來減小learning rate。
    • 最開始時,我們距離最低點很遠(yuǎn),所以我們用較大的步長。
    • 經(jīng)過幾輪后,我們接近了最低點,所以我們減少learning rate。
    • 比如: 1/t 衰減: $η^n=\frac{η}{\sqrt {t+1}}$
  • learning rate 不能從一而終
    • 要給不同的參數(shù)設(shè)置不同的learning rate。

為了達(dá)到此目的,有許多種技巧,而Adagrad就是一種不錯的選擇。

Adagrad

這里寫圖片描述

這樣操作后,每組參數(shù)的learning rate 都不同。

舉個例子:


這里寫圖片描述

所以用Adagrad后,我們的參數(shù)變化要寫成這樣:

這里寫圖片描述

Adagrad越到后面改變會越慢,這是一個正常現(xiàn)象。

Q:有沒有奇怪的地方??是否有所沖突??


這里寫圖片描述
這里寫圖片描述

這里寫圖片描述

這里寫圖片描述

這里寫圖片描述

Tip 2:Stochastic Gradient Descent

讓你的Training更快一點!


這里寫圖片描述
這里寫圖片描述

Tip 3 : Feature Scaling

讓不同的特征值具有相同的縮放程度。

這里寫圖片描述

這里寫圖片描述

這里寫圖片描述
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容