如果想觀看相關(guān)視頻可以在西瓜視頻(賬號(hào)zidea)或者嗶哩嗶哩(賬號(hào)zidea2015)找到我發(fā)布視頻解說(shuō),注意頭像和簡(jiǎn)書(shū)使用頭像一致。
馬爾可夫決策過(guò)程 MDP(Markov Decision Processes)
馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)的一個(gè)基本框架,
馬爾可夫鏈
在概率論更多時(shí)候我們都是研究隨機(jī)變量,其中包括隨機(jī)變量和隨機(jī)變量之間的關(guān)系。有一種隨機(jī)變量關(guān)系他們是在時(shí)序有一種相互關(guān)系。那么如果我們將這樣時(shí)序相關(guān)關(guān)聯(lián)一組隨機(jī)變量看作一個(gè)整體來(lái)研究,這就是隨機(jī)過(guò)程。
馬爾可夫鏈是一種特殊的隨機(jī)過(guò)程,是具備馬爾可夫?qū)傩缘碾S機(jī)過(guò)程。在之前我們介紹馬爾可夫性質(zhì)說(shuō)到兩個(gè)性質(zhì)分別是
- 馬爾可夫假設(shè)
- 觀測(cè)獨(dú)立假設(shè)
也就是下一個(gè)狀態(tài)只取決于當(dāng)前狀態(tài),而與當(dāng)前狀態(tài)的之間狀態(tài)都沒(méi)有關(guān)系。如果說(shuō)某一個(gè)過(guò)程是滿足馬爾可夫特性的,在未來(lái)轉(zhuǎn)移和過(guò)去是獨(dú)立,只與現(xiàn)在狀態(tài)有關(guān),把具有這性質(zhì)的隨機(jī)過(guò)程就稱(chēng)為馬爾可夫鏈
- 過(guò)去狀態(tài)集合
馬爾可夫假設(shè)一個(gè)初衷就是為簡(jiǎn)化計(jì)算。
狀態(tài)空間模型
- HMM
- Kalman Filter
- Paticle Filter
狀態(tài)轉(zhuǎn)移矩陣
通常我們研究的對(duì)象都是離散的狀態(tài),其狀態(tài)是有限的。描述馬爾可夫狀態(tài)轉(zhuǎn)移矩陣是用來(lái)描述動(dòng)態(tài)特性,可以可以將其稱(chēng)為狀態(tài)轉(zhuǎn)移函數(shù)、或者狀態(tài)轉(zhuǎn)移概率都可以。
馬爾可夫鏈實(shí)例
這就是軌跡概念,每一條鏈都是一條軌跡
馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRPs)
馬爾可夫獎(jiǎng)勵(lì)過(guò)程,就是馬爾可夫鏈再加上一個(gè)獎(jiǎng)勵(lì)(Reward)函數(shù)
- 定義馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRP)
- S 表示狀態(tài)集合
- P 是動(dòng)態(tài)/轉(zhuǎn)移模型可以表示為
- R 是獎(jiǎng)勵(lì)函數(shù)
- Discount factor(折扣量)
- S 表示狀態(tài)集合
引入獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)過(guò)程看成隨波逐流,隨著事先定義好狀態(tài)轉(zhuǎn)移進(jìn)行流動(dòng)。
馬爾可夫決策過(guò)程(MDPs)
馬爾可夫決策過(guò)程(MDP),當(dāng)我們買(mǎi)了某只股票,或者投擲硬幣進(jìn)行下注,之后我們就能等待結(jié)果,根據(jù)結(jié)果來(lái)得到回報(bào)。馬爾可夫決策過(guò)程(MDP) 會(huì)根據(jù)不同狀態(tài)進(jìn)行不同動(dòng)作。
- S 表示狀態(tài)的集合
- A 表示動(dòng)作的集合,對(duì)于任意
通常來(lái)用
表示動(dòng)作集合是針對(duì)于某一個(gè)狀態(tài)來(lái)說(shuō)
-
是 Action 是動(dòng)態(tài)/轉(zhuǎn)移模型
,也就是 MDP 動(dòng)態(tài)特性
- P 狀態(tài)轉(zhuǎn)移函數(shù)
- R 是獎(jiǎng)勵(lì)函數(shù)
- 折扣系數(shù)
- MDP 是