假設我們知道網絡輸出和實際輸出之間的區別,我們怎樣調整網絡參數使他們接近
一種代價函數形式
Paste_Image.png
一種weight decay代價函數形式
Paste_Image.png
參數如何初始化實際上是一個problem,后面會有相應討論,這里簡單的以高斯分布討論。
修正參數的原理,只要間隔取得小,就能收斂。雖然這是非凸函數,會收斂到局部最小值,但是事實證明結果是好的。
Paste_Image.png
所以這個梯度的求法就很關鍵了,這里上BP(反向傳播算法)
Paste_Image.png
重點來了——BP計算步驟##
1.先前向傳播,this is easy
2.然后計算最后一層整體的偏差量
Paste_Image.png
3.從后往前逐層計算前一層的偏差量
Paste_Image.png
4.最后由每一層的偏差量計算W與b的梯度,此即為更新時需要用到的值
Paste_Image.png
Some trick
如何保證計算出的梯度是正確的——梯度檢查
Paste_Image.png