讀論文Deterministic Policy Gradient Algorithms

近期打算把基于策略梯度的增強學習的幾篇論文讀了,包括DPG、DDPG、TRPO和A3C,希望能對策略梯度的學習有一個促進。

第一篇論文是Deterministic Policy Gradient Algorithms,簡稱DPG,也是deepmind發表的,后面又出了一篇論文DeepDPG,簡稱DDPG。很多基于策略梯度學習的論文都會選擇DDPG算法進行效果比較。

論文講了很多理論基礎知識,正好學習一下

1、策略梯度(概率策略)

在MDP過程中,我們尋找是一個能使累計獎賞最大化的策略,目標函數定義如下:


策略梯度的想法就是沿著使目標函數變大的方向調整策略的參數:


這就是策略梯度的公式,出乎意料的簡單

2、Actor-Critic算法

Actor-Critic算法網上用的最經典的圖如下:


Actor-Critic算法把策略函數和價值函數分別用單獨的網絡來近似, 策略函數作為Actor來做動作選擇,價值函數作為Critic來對策略函數進行評估,根據Critic的輸出來更新價值網絡和策略網,把論文后面的幾個公式放在這里描述一下整個的更新過程:


3、Off-Policy

Off-policy就是通過其他的策略形成的采樣樣本來更新當前的策略,籠統來講,如果我們考慮greedy算法,off-policy和on-policy的差異沒有那么大。論文還是列了一下策略梯度的不同的地方,意思是采樣是服從有一個比率的重點采樣,但是梯度方向是沒有變化的。


4、Deterministic Policy Gradient Theorem

論文附錄中有證明,當概率策略的方差趨近于0的時候,就是確定性策略,公式9就是公式2的特例


5、Compatible Function Approximation

對合理的Q函數近似還是有一定要求的,才能滿足模擬函數Q的梯度等于真實Q的梯度


最后,最重要的迭代公式:


我不告訴你,我沒看懂,如何通過策略函數的梯度來線性近似表示Q函數。

最后論文通過比較stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在連續的動作空間的游戲的表現說明DPG的算法效率比較高,效果也不錯。


論文也給出了DPG在ba z八抓魚中的測試,隨著迭代的進行,reward有一直增長的趨勢,具體數據看論文吧。

結論:


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容