2021 重啟強(qiáng)化學(xué)習(xí)(2)—馬爾可夫決策過(guò)程

009.jpeg

如果想觀看相關(guān)視頻可以在西瓜視頻(賬號(hào)zidea)或者嗶哩嗶哩(賬號(hào)zidea2015)找到我發(fā)布視頻解說(shuō),注意頭像和簡(jiǎn)書(shū)使用頭像一致。

馬爾可夫決策過(guò)程 MDP(Markov Decision Processes)

馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的一個(gè)基本框架,

馬爾可夫鏈

在概率論更多時(shí)候我們都是研究隨機(jī)變量,其中包括隨機(jī)變量和隨機(jī)變量之間的關(guān)系。有一種隨機(jī)變量關(guān)系他們是在時(shí)序有一種相互關(guān)系。那么如果我們將這樣時(shí)序相關(guān)關(guān)聯(lián)一組隨機(jī)變量看作一個(gè)整體來(lái)研究,這就是隨機(jī)過(guò)程

馬爾可夫鏈是一種特殊的隨機(jī)過(guò)程,是具備馬爾可夫?qū)傩缘碾S機(jī)過(guò)程。在之前我們介紹馬爾可夫性質(zhì)說(shuō)到兩個(gè)性質(zhì)分別是

  • 馬爾可夫假設(shè)
  • 觀測(cè)獨(dú)立假設(shè)

也就是下一個(gè)狀態(tài)只取決于當(dāng)前狀態(tài),而與當(dāng)前狀態(tài)的之間狀態(tài)都沒(méi)有關(guān)系。如果說(shuō)某一個(gè)過(guò)程是滿足馬爾可夫特性的,在未來(lái)轉(zhuǎn)移和過(guò)去是獨(dú)立,只與現(xiàn)在狀態(tài)有關(guān),把具有這性質(zhì)的隨機(jī)過(guò)程就稱(chēng)為馬爾可夫鏈

  • 過(guò)去狀態(tài)集合 h_t = \{ S_1,S_2,S_3,\cdots, S_t \}
  • p(S_{t+1}|S_t) = p(S_{t+1}|h_t)

馬爾可夫假設(shè)一個(gè)初衷就是為簡(jiǎn)化計(jì)算。

狀態(tài)空間模型

  • HMM
  • Kalman Filter
  • Paticle Filter

p(S_{t+1}|S_t,a_t) = p(S_{t+1}|h_t,a_t)

狀態(tài)轉(zhuǎn)移矩陣

通常我們研究的對(duì)象都是離散的狀態(tài),其狀態(tài)是有限的。描述馬爾可夫狀態(tài)轉(zhuǎn)移矩陣是用來(lái)描述動(dòng)態(tài)特性,可以可以將其稱(chēng)為狀態(tài)轉(zhuǎn)移函數(shù)、或者狀態(tài)轉(zhuǎn)移概率都可以。

p = \begin{bmatrix} P(s_1|s_1) & P(s_2|s_1) & \cdots & P(s_N|s_1)\\ P(s_1|s_2) & P(s_2|s_2) & \cdots & P(s_N|s_2)\\ \end{bmatrix}

馬爾可夫鏈實(shí)例

這就是軌跡概念,每一條鏈都是一條軌跡

  • S_3, S_4,S_5,S_6,S_6
  • S_3, S_2,S_3,S_2,S_1
  • S_3, S_4,S_4,S_5,S_5

馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRPs)

馬爾可夫獎(jiǎng)勵(lì)過(guò)程,就是馬爾可夫鏈再加上一個(gè)獎(jiǎng)勵(lì)(Reward)函數(shù)

  • 定義馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRP)
    • S 表示狀態(tài)集合s \in S
    • P 是動(dòng)態(tài)/轉(zhuǎn)移模型可以表示為P(S_{t+1} = s^{\prime}|s_t = s)
    • R 是獎(jiǎng)勵(lì)函數(shù) R(s_t = s) = \mathbb{E}[r_t|s_t = s]
    • Discount factor(折扣量)\gamma \in [0,1]

引入獎(jiǎng)勵(lì)R = [5,0,0,0,0,0,7],獎(jiǎng)勵(lì)過(guò)程看成隨波逐流,隨著事先定義好狀態(tài)轉(zhuǎn)移進(jìn)行流動(dòng)。

馬爾可夫決策過(guò)程(MDPs)

馬爾可夫決策過(guò)程(MDP),當(dāng)我們買(mǎi)了某只股票,或者投擲硬幣進(jìn)行下注,之后我們就能等待結(jié)果,根據(jù)結(jié)果來(lái)得到回報(bào)。馬爾可夫決策過(guò)程(MDP) 會(huì)根據(jù)不同狀態(tài)進(jìn)行不同動(dòng)作。

  • S 表示狀態(tài)的集合
  • A 表示動(dòng)作的集合,對(duì)于任意s \in S 通常來(lái)用 A(s) 表示動(dòng)作集合是針對(duì)于某一個(gè)狀態(tài)來(lái)說(shuō)
  • \mathbb{P} 是 Action 是動(dòng)態(tài)/轉(zhuǎn)移模型 P(S_{t+1} = s^{\prime},R_{t+1}=r|s_t = s,a_t = a),也就是 MDP 動(dòng)態(tài)特性
  • P 狀態(tài)轉(zhuǎn)移函數(shù) P(S_{t+1} = s^{\prime}|s_t = s,a_t = a) = \sum_{r \in R} p(s^{\prime},r|s,a)
  • R 是獎(jiǎng)勵(lì)函數(shù) R(s_t = s,a_t = a) = \mathbb{E}[r_t|s_t = s,a_t = a]
  • 折扣系數(shù)\gamma \in [0,1]
  • MDP 是(S,A,P,R,\gamma)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容