超级av在线天堂东京热,欧美乱大交做爰xxxⅹ性av,精产国品一二三产区区别在线观看

近期打算把基于策略梯度的增強學習的幾篇論文讀了，包括DPG、DDPG、TRPO和A3C，希望能對策略梯度的學習有一個促進。

第一篇論文是Deterministic Policy Gradient Algorithms，簡稱DPG，也是deepmind發表的，后面又出了一篇論文DeepDPG，簡稱DDPG。很多基于策略梯度學習的論文都會選擇DDPG算法進行效果比較。

論文講了很多理論基礎知識，正好學習一下

1、策略梯度（概率策略）

在MDP過程中，我們尋找是一個能使累計獎賞最大化的策略，目標函數定義如下：

策略梯度的想法就是沿著使目標函數變大的方向調整策略的參數：

這就是策略梯度的公式，出乎意料的簡單

2、Actor-Critic算法

Actor-Critic算法網上用的最經典的圖如下：

Actor-Critic算法把策略函數和價值函數分別用單獨的網絡來近似，策略函數作為Actor來做動作選擇，價值函數作為Critic來對策略函數進行評估，根據Critic的輸出來更新價值網絡和策略網，把論文后面的幾個公式放在這里描述一下整個的更新過程：

3、Off-Policy

Off-policy就是通過其他的策略形成的采樣樣本來更新當前的策略，籠統來講，如果我們考慮greedy算法，off-policy和on-policy的差異沒有那么大。論文還是列了一下策略梯度的不同的地方，意思是采樣是服從有一個比率的重點采樣，但是梯度方向是沒有變化的。

4、Deterministic Policy Gradient Theorem

論文附錄中有證明，當概率策略的方差趨近于0的時候，就是確定性策略，公式9就是公式2的特例

5、Compatible Function Approximation

對合理的Q函數近似還是有一定要求的，才能滿足模擬函數Q的梯度等于真實Q的梯度

最后，最重要的迭代公式：

我不告訴你，我沒看懂，如何通過策略函數的梯度來線性近似表示Q函數。

最后論文通過比較stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在連續的動作空間的游戲的表現說明DPG的算法效率比較高，效果也不錯。

論文也給出了DPG在ba z八抓魚中的測試，隨著迭代的進行，reward有一直增長的趨勢，具體數據看論文吧。

結論：

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频