6
0
2
287
1
6.2 基于梯度的學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致代價函數(shù)變成了非凸函數(shù),意味著基于梯度的迭代優(yōu)化不一定能收斂到全局最優(yōu)。 所以,對代價函數(shù)的優(yōu)化結(jié)果...
希望能慢慢記錄學(xué)習(xí)RL的一點(diǎn)一滴