近期打算把基于策略梯度的增強學習的幾篇論文讀了,包括DPG、DDPG、TRPO和A3C,希望能對策略梯度的學習有一個促進。
第一篇論文是Deterministic Policy Gradient Algorithms,簡稱DPG,也是deepmind發表的,后面又出了一篇論文DeepDPG,簡稱DDPG。很多基于策略梯度學習的論文都會選擇DDPG算法進行效果比較。
論文講了很多理論基礎知識,正好學習一下
1、策略梯度(概率策略)
在MDP過程中,我們尋找是一個能使累計獎賞最大化的策略,目標函數定義如下:
策略梯度的想法就是沿著使目標函數變大的方向調整策略的參數:
這就是策略梯度的公式,出乎意料的簡單
2、Actor-Critic算法
Actor-Critic算法網上用的最經典的圖如下:
Actor-Critic算法把策略函數和價值函數分別用單獨的網絡來近似, 策略函數作為Actor來做動作選擇,價值函數作為Critic來對策略函數進行評估,根據Critic的輸出來更新價值網絡和策略網,把論文后面的幾個公式放在這里描述一下整個的更新過程:
3、Off-Policy
Off-policy就是通過其他的策略形成的采樣樣本來更新當前的策略,籠統來講,如果我們考慮greedy算法,off-policy和on-policy的差異沒有那么大。論文還是列了一下策略梯度的不同的地方,意思是采樣是服從有一個比率的重點采樣,但是梯度方向是沒有變化的。
4、Deterministic Policy Gradient Theorem
論文附錄中有證明,當概率策略的方差趨近于0的時候,就是確定性策略,公式9就是公式2的特例
5、Compatible Function Approximation
對合理的Q函數近似還是有一定要求的,才能滿足模擬函數Q的梯度等于真實Q的梯度
最后,最重要的迭代公式:
我不告訴你,我沒看懂,如何通過策略函數的梯度來線性近似表示Q函數。
最后論文通過比較stochastic on-policy actor-critic
(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic
off-policy actor-critic (COPDAC)在連續的動作空間的游戲的表現說明DPG的算法效率比較高,效果也不錯。
論文也給出了DPG在ba z八抓魚中的測試,隨著迭代的進行,reward有一直增長的趨勢,具體數據看論文吧。
結論: