關(guān)于對馬爾科夫決策過程與Q函數(shù)的理解

最近轉(zhuǎn)向深度學習方向的學習,遇到一些卡殼。

查閱了部分資料,獲得一些個人的理解如下:

馬爾可夫決策過程 【定義】

是基于馬爾可夫過程理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程。

它是馬爾可夫過程與確定性的動態(tài)規(guī)劃相結(jié)合的產(chǎn)物,故又稱馬爾可夫型隨機動態(tài)規(guī)劃。

1?? 具備 馬爾科夫鏈 屬性:

即 簡單點說,一個事件/物體 可視為是 無數(shù)(狀態(tài),動作)的切片積分而成,而下一個狀態(tài)s` 僅與 當前狀態(tài)s 有關(guān),與歷史狀態(tài)無關(guān)。

舉例:就像下棋一樣,你下棋的每一個決策 都僅與當前棋局的狀態(tài) 有關(guān), 而你是基于最終收益(贏)作為動作 的策略依據(jù)。

2?? 由(S, A, R, P)四個變量 描述

S: State 狀態(tài)序列
A: Action 由狀態(tài) 映射到 的動作序列
R:Reward 回報函數(shù),立即回報
P:狀態(tài)轉(zhuǎn)移概率序列

3?? 引入 值函數(shù)概率來衡量 當前狀態(tài)的長期收益

3.1狀態(tài)值函數(shù):

γ 為 折扣因子:用來 加權(quán) 與當前狀態(tài) 時間 最接近的 動作影響力 越大。
γ=0時,相當于只考慮立即不考慮長期回報,
γ=1時,將長期回報和立即回報看得同等重要。

3.2 加入(狀態(tài),動作)轉(zhuǎn)移概率后
3.3 MDP的最優(yōu)策略

即 能夠使得Vπ(s)在任意 狀態(tài)s下 均能 獲得最大值 的策略 π

那么 怎么樣 進行求解呢?

獲得最優(yōu)策略的三種方法:
動態(tài)規(guī)劃法(dynamic programming methods)
蒙特卡羅方法(Monte Carlo methods)
時間差分法(temporal difference)

3.4 動態(tài)規(guī)劃法(貝爾曼方程)

3.5 Q函數(shù)-(引入了動作的值函數(shù))

1?? 定義動作值函數(shù)(action value function Q函數(shù))如下:



2?? 給定當前狀態(tài)s和當前動作a,在未來遵循策略π,那么系統(tǒng)將以概率p(s'|s,a)轉(zhuǎn)向下個狀態(tài)s',上式可以重寫為:



3?? 值迭代:
Q(s,a) = r + γ * max{ Q(基于s'下 任意a' ) }
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習,非監(jiān)督學習和增強學習。 增強學...
    阿阿阿阿毛閱讀 31,378評論 0 25
  • 機器學習一共有三個分支,有監(jiān)督學習、無監(jiān)督學習和強化學習。強化學習是系統(tǒng)從環(huán)境學習以使得獎勵最大的機器學習。強化學...
    文哥的學習日記閱讀 4,555評論 2 17
  • 學號:16040520018 姓名:米芃 [嵌牛導讀]本文是強化學習名作——“Reinforcement Lear...
    南城城南閱讀 559評論 0 0
  • 子曰:父在,觀其志;父沒,觀其行;三年無改于父之道,可謂孝矣。 這段章句,孔子在談孝的表現(xiàn)。孝,一般用來形容子輩對...
    淺淺君子閱讀 609評論 0 0
  • 村莊深處,桑草青黃,席卷鄉(xiāng)野;霧靄盡褪,已無風吹稻浪。咪完小酒,父親說,我們這里曬太陽好,就搬條竹椅,顧自在墻根瞇...
    書叉臉困覺豬2閱讀 2,045評論 22 56