深度強化學習-DDPG算法原理和實現

在之前的幾篇文章中,我們介紹了基于價值Value的強化學習算法Deep Q Network。有關DQN算法以及各種改進算法的原理和實現,可以參考之前的文章:

實戰深度強化學習DQN-理論和實踐:http://www.lxweimin.com/p/10930c371cac
DQN三大改進(一)-Double DQN:http://www.lxweimin.com/p/fae51b5fe000
DQN三大改進(二)-Prioritised replay:http://www.lxweimin.com/p/db14fdc67d2c
DQN三大改進(三)-Dueling Network:http://www.lxweimin.com/p/b421c85796a2

基于值的強化學習算法的基本思想是根據當前的狀態,計算采取每個動作的價值,然后根據價值貪心的選擇動作。如果我們省略中間的步驟,即直接根據當前的狀態來選擇動作。基于這種思想我們就引出了強化學習中另一類很重要的算法,即策略梯度(Policy Gradient)。之前我們已經介紹過策略梯度的基本思想和實現了,大家可以有選擇的進行預習和復習:

深度強化學習-Policy Gradient基本實現:http://www.lxweimin.com/p/2ccbab48414b

當基于值的強化學習方法和基于策略梯度的強化學習方法相結合,我們就產生了Actor-Critic方法,關于這個方法的介紹,可以參考文章:

深度強化學習-Actor-Critic算法原理和實現:http://www.lxweimin.com/p/25c09ae3d206

但是對于Actor-Critic算法來說,模型涉及到了兩個神經網絡, 而且每次都是在連續狀態中更新參數, 每次參數更新前后都存在相關性, 即模型的訓練數據不再是獨立同分布,這導致神經網絡只能片面的看待問題, 甚至導致神經網絡學不到東西。想想我們之前介紹的DQN是如何解決的這個問題的?就是建立了兩個網絡,一個target網絡,一個eval網絡,同時使用了經驗回放機制!那么如果在Actor-Critic網絡結構中加入這兩個機制,就得到了一種新的強化學習模型:Deep Deterministic Policy Gradient,簡稱DDPG!可以說Actor-Critic + DQN = DDPG,今天,我們就來一探DDPG的究竟!

1、DDPG原理

什么是DDPG呢

什么是DDPG呢?前面我們介紹過了,它是Actor-Critic 和 DQN 算法的結合體。

DDPG的全稱是Deep Deterministic Policy Gradient。

我們首先來看Deep,正如Q-learning加上一個Deep就變成了DQN一樣,這里的Deep即同樣使用DQN中的經驗池和雙網絡結構來促進神經網絡能夠有效學習。

再來看Deterministic,即我們的Actor不再輸出每個動作的概率,而是一個具體的動作,這更有助于我們連續動作空間中進行學習。之前不太理解這個連續動作空間是什么意思,既然policy gradient和dqn都是輸出每個動作的概率和q值,那么我們為什么還要用policy gradient呢?這個連續動作空間的例子可以舉一個么?既然已經誠心誠意的發問了,那么我就班門弄斧回答一下。假如想要通過強化學習得到一個詞的32維詞向量,哇,這個詞向量的動作空間可是無限大的呀,[1,0....0]是一個動作,[0,1...0]是一個動作,如果加上小數,那更是數不過來啦,這時候我們根本不可能去計算每個動作的概率或者q值,我們只能給定狀態即一個單詞,直接輸出一個合適的詞向量。類似于這種情況,DDPG就可以大顯神威了。

DDPG的網絡結構
盜用莫煩老師的一張圖片來形象的表示DDPG的網絡結構,同圖片里一樣,我們稱Actor里面的兩個網絡分別是動作估計網絡和動作現實網絡,我們稱Critic中的兩個網絡分別是狀態現實網絡和狀態估計網絡:

我們采用了類似DQN的雙網絡結構,而且Actor和Critic都有target-net和eval-net。我們需要強調一點的事,我們只需要訓練動作估計網絡和狀態估計網絡的參數,而動作現實網絡和狀態現實網絡的參數是由前面兩個網絡每隔一定的時間復制過去的。

我們先來說說Critic這邊,Critic這邊的學習過程跟DQN類似,我們都知道DQN根據下面的損失函數來進行網絡學習,即現實的Q值和估計的Q值的平方損失:

上面式子中Q(S,A)是根據狀態估計網絡得到的,A是動作估計網絡傳過來的動作。而前面部分R + gamma * maxQ(S',A')是現實的Q值,這里不一樣的是,我們計算現實的Q值,不在使用貪心算法,來選擇動作A',而是動作現實網絡得到這里的A'。總的來說,Critic的狀態估計網絡的訓練還是基于現實的Q值和估計的Q值的平方損失,估計的Q值根據當前的狀態S和動作估計網絡輸出的動作A輸入狀態估計網絡得到,而現實的Q值根據現實的獎勵R,以及將下一時刻的狀態S'和動作現實網絡得到的動作A' 輸入到狀態現實網絡 而得到的Q值的折現值加和得到(這里運用的是貝爾曼方程)。

我們再來說一下Actor這邊,論文中,我們基于下面的式子進行動作估計網絡的參數:

這個式子看上去很嚇人,但是其實理解起來很簡單。假如對同一個狀態,我們輸出了兩個不同的動作a1和a2,從狀態估計網絡得到了兩個反饋的Q值,分別是Q1和Q2,假設Q1>Q2,即采取動作1可以得到更多的獎勵,那么Policy gradient的思想是什么呢,就是增加a1的概率,降低a2的概率,也就是說,Actor想要盡可能的得到更大的Q值。所以我們的Actor的損失可以簡單的理解為得到的反饋Q值越大損失越小,得到的反饋Q值越小損失越大,因此只要對狀態估計網絡返回的Q值取個負號就好啦。是不是很簡單。

DDPG學習中的小trick

與傳統的DQN不同的是,傳統的DQN采用的是一種被稱為'hard'模式的target-net網絡參數更新,即每隔一定的步數就將eval-net中的網絡參數賦值過去,而在DDPG中,采用的是一種'soft'模式的target-net網絡參數更新,即每一步都對target-net網絡中的參數更新一點點,這種參數更新方式經過試驗表明可以大大的提高學習的穩定性。'soft'模式到底是如何更新網絡的?我們可以通過代碼更好的理解。

論文中提到的另一個小trick是對采取的動作增加一定的噪聲:

DDPG的完整流程

介紹了這么多,我們也就能順利理解原文中的DDPG算法的流程:

2、DDPG算法實現

好了,原理介紹的差不多了,我們來看一下代碼的實現。本文的代碼仍然參考的是莫煩老師的代碼。

本文代碼的github地址為:https://github.com/princewen/tensorflow_practice/blob/master/Basic-DDPG/DDPG-update.py

定義超參數
我們首先定義網絡中的超參數,比如經驗池的大小,兩個網絡的學習率等等:

MAX_EPISODES = 200
MAX_EP_STEPS = 200
LR_A = 0.001    # learning rate for actor
LR_C = 0.002    # learning rate for critic
GAMMA = 0.9     # reward discount
TAU = 0.01      # soft replacement
MEMORY_CAPACITY = 10000
BATCH_SIZE = 32

RENDER = False
ENV_NAME = 'Pendulum-v0'

定義網絡輸入
我們需要定義的placeholder包括當前的狀態S,下一時刻的狀態S',以及對應的獎勵R,而動作A由Actor得到,因此不需要再定義:

self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
self.R = tf.placeholder(tf.float32, [None, 1], 'r')

構建兩個網絡
兩個網絡都是兩層全鏈接的神經網絡,Actor輸出一個具體的動作,而Critic網絡輸出一個具體的Q值

def _build_a(self, s, scope, trainable):
    with tf.variable_scope(scope):
        net = tf.layers.dense(s, 30, activation=tf.nn.relu, name='l1', trainable=trainable)
        a = tf.layers.dense(net, self.a_dim, activation=tf.nn.tanh, name='a', trainable=trainable)
        return tf.multiply(a, self.a_bound, name='scaled_a')

def _build_c(self, s, a, scope, trainable):
    with tf.variable_scope(scope):
        n_l1 = 30
        w1_s = tf.get_variable('w1_s', [self.s_dim, n_l1], trainable=trainable)
        w1_a = tf.get_variable('w1_a', [self.a_dim, n_l1], trainable=trainable)
        b1 = tf.get_variable('b1', [1, n_l1], trainable=trainable)
        net = tf.nn.relu(tf.matmul(s, w1_s) + tf.matmul(a, w1_a) + b1)
        return tf.layers.dense(net, 1, trainable=trainable)  # Q(s,a)

soft模式參數更新
可以看到,我們這里進行的是soft模式的參數更新,每次在原來target-net參數的基礎上,改變一丟丟,增加一點點eval-net的參數信息。

# networks parameters
self.ae_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/eval')
self.at_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/target')
self.ce_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/eval')
self.ct_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/target')

# target net replacement
self.soft_replace = [[tf.assign(ta, (1 - TAU) * ta + TAU * ea), tf.assign(tc, (1 - TAU) * tc + TAU * ec)]
                     for ta, ea, tc, ec in zip(self.at_params, self.ae_params, self.ct_params, self.ce_params)]

定義兩個網絡的損失
關于兩個網絡的損失,我們之前已經詳細介紹過了,這里只是對剛才思路的一個代碼實現。

q_target = self.R + GAMMA * q_
# in the feed_dic for the td_error, the self.a should change to actions in memory
td_error = tf.losses.mean_squared_error(labels=q_target, predictions=q)
self.ctrain = tf.train.AdamOptimizer(LR_C).minimize(td_error, var_list=self.ce_params)

a_loss = - tf.reduce_mean(q)    # maximize the q
self.atrain = tf.train.AdamOptimizer(LR_A).minimize(a_loss, var_list=self.ae_params)

學習
我們首先要從經驗池中取出一個batch的數據,然后訓練我們的Actor和Critic

def learn(self):
    # soft target replacement
    self.sess.run(self.soft_replace)

    indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
    bt = self.memory[indices, :]
    bs = bt[:, :self.s_dim]
    ba = bt[:, self.s_dim: self.s_dim + self.a_dim]
    br = bt[:, -self.s_dim - 1: -self.s_dim]
    bs_ = bt[:, -self.s_dim:]

    self.sess.run(self.atrain, {self.S: bs})
    self.sess.run(self.ctrain, {self.S: bs, self.a: ba, self.R: br, self.S_: bs_})

存儲經驗

def store_transition(self, s, a, r, s_):
    transition = np.hstack((s, a, [r], s_))
    index = self.pointer % MEMORY_CAPACITY  # replace the old memory with new memory
    self.memory[index, :] = transition
    self.pointer += 1

好啦,我們這里就簡單介紹一下代碼中的核心部分,其余的代碼大家可以參照github進行學習,祝大家清明節快樂,玩得開心,學得開心!

參考文獻:

1、https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-2-A-DDPG/
2、論文:https://arxiv.org/abs/1509.02971

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容