莫煩強化學習學習筆記1-基礎

強化學習方法匯總 (Reinforcement Learning):

(1)Model-free 和 Model-based:

model-free是指agent對環境不了解, model-based指agent對環境了解。

(2)基于概率 和 基于價值

image.png

?基于概率的話,有幾率選到概率比較小的action. 基于價值的話,永遠選value最大的動作。另外基于價值的無法在連續動作過程中實現。
?但有一種綜合性的方法。比如在基于概率這邊, 有 Policy Gradients, 在基于價值這邊有 Q learning, Sarsa 等. 而且我們還能結合這兩類方法的優勢之處, 創造更牛逼的一種方法, 叫做 Actor-Critic, actor 會基于概率做出動作, 而 critic 會對做出的動作給出動作的價值, 這樣就在原有的 policy gradients 上加速了學習過程.

(3)回合更新 和 單步更新
image.png

?回合更新指的是游戲開始后, 我們要等待游戲結束, 然后再總結這一回合中的所有轉折點, 再更新我們的行為準則. 而單步更新則是在游戲進行中每一步都在更新, 不用等待游戲的結束, 這樣我們就能邊玩邊學習了.
?再來說說方法, Monte-carlo learning 和基礎版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升級版的 policy gradients 等都是單步更新制. 因為單步更新更有效率, 所以現在大多方法都是基于單步更新. 比如有的強化學習問題并不屬于回合問題.

(4)在線學習 和 離線學習
image.png

最后一種分類方式是 在線學習和離線學習, 所謂在線學習, 就是指我必須本人在場, 并且一定是本人邊玩邊學習。而離線學習是你可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學習別人的行為準則。
在線學習有Sarsa, Sarsa lambda, 最典型的離線學習就是 Q learning, Deep-Q-Network.

強化學習的解法的通用框架: 馬爾克夫模型.

首先,我們要正式定義強化學習問題的框架,然后列出可能的解決方法。

馬爾可夫決策過程:

在強化學習中定義解法的數學框架叫做馬爾可夫決策過程(Markov Decision Process)。 它被設計為:

一系列狀態的集合(Set of states),S
一系列行動的集合(Set of actions),A
獎勵函數(Reward function),R
策略(Policy),π
價值(Valu),V

我們必須采取行動(A)從我們的開始狀態過渡到我們的結束狀態(S)。我們采取的每個行動將獲得獎勵(R)。 我們的行為可以導致正獎勵或負獎勵。

我們采取的行動的集合(A)定義了我們的策略(π),我們得到的獎勵(R)定義了我們的價值(V)。 我們在這里的任務是通過選擇正確的策略來最大化我們的獎勵。 所以我們必須對時間t的所有可能的S值最大化。

參考文章

[1]https://github.com/aikorea/awesome-rl
[2]入門指南 | 人工智能的新希望——強化學習全解https://36kr.com/p/5064302.html
[3]馬爾科夫決策過程http://www.lxweimin.com/p/295d7a8ebe48

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容