6
0
2
287
1
6.2 基于梯度的學習 神經網絡的非線性導致代價函數變成了非凸函數,意味著基于梯度的迭代優化不一定能收斂到全局最優。 所以,對代價函數的優化結果...
希望能慢慢記錄學習RL的一點一滴