深度強化學習筆記

強化學習的模型

機器學習分類

  • 機器學習可以分為監(jiān)督學習(Supervised Learning)、非監(jiān)督學習(Unsupervised Learning)和強化學習(Reinforcement Learning,RL)三大板塊。

強化學習簡介

  • 強化學習是一種模擬生物智能體學習最優(yōu)決策過程的機器學習方法,其主要思想是智能體以試錯的方式與環(huán)境不斷交互,并積累大量經(jīng)驗和獲得環(huán)境的各種反饋,并從經(jīng)驗中逐漸學習與環(huán)境交互的最佳策略
  • 描述強化學習模型最常用的數(shù)學工具是馬爾可夫決策過程(Markov Decision Process,MDP)。馬爾可夫決策過程是一種滿足馬爾可夫性的時間序列過程。
  • 馬爾可夫性是指一個系統(tǒng)下一時刻的狀態(tài)只與當前時刻的狀態(tài)有關,而與之前時刻的狀態(tài)無關
  • 強化學習過程的兩大主體是智能體(Agent)和環(huán)境(Environment)。
    • 智能體是策略學習的主體,其任務是學習與環(huán)境交互的最佳策略(Policy),這也是強化學習的終極目標。
    • 環(huán)境一般是指除智能體以外的所有系統(tǒng)過程,其表現(xiàn)形式是環(huán)境狀態(tài)(State)。
  • 馬爾可夫決策過程:智能體向環(huán)境施加動作(Action),動作會迫使環(huán)境狀態(tài)發(fā)生轉移,并且環(huán)境會給智能體一個反饋信息(Reward)。智能體正是通過“狀態(tài)→動作→下一狀態(tài)→反饋”這一系列經(jīng)驗(Experience)過程實現(xiàn)逐漸學習最佳策略

強化學習分類方式

按照連續(xù)性分類

  • 強化學習問題可以分為離散型強化學習問題和連續(xù)型強化學習問題。
  • 離散型強化學習問題是指狀態(tài)空間動作空間都離散的強化學習任務,這種問題一般具有明確的初始狀態(tài)和終止狀態(tài),環(huán)境系統(tǒng)可以在有限時間步到達終止狀態(tài)。可以用基于表格的方法求解離散型強化學習問題,也就是說,求解離散型強化學習問題實際上就是維持一個值函數(shù)表格,當表格中的數(shù)據(jù)收斂時,也就達到了最優(yōu)策略。
  • 連續(xù)型強化學習問題是指狀態(tài)空間或動作空間連續(xù)的強化學習任務,狀態(tài)空間連續(xù)的強化學習問題可能沒有明確的終止狀態(tài),智能體和環(huán)境的交互會一直進行下去。可以用將連續(xù)空間離散化的方法求解連續(xù)強化學習問題,但當空間維數(shù)較大時,這種方法需要耗費巨大的計算資源,同時精度也不高,所以一般不使用這種方法。表格法在求解大規(guī)模強化學習問題上是無能為力的,一般借助深度學習技術來解決大規(guī)模強化學習問題。另外一種求解連續(xù)型強化學習問題的方法是函數(shù)近似法

按照狀態(tài)轉移信息來分類

  • 強化學習可以分為有模型強化學習(Model-Based RL)和免模型強化學習(Model-Free RL)。
  • 有模型強化學習是指學習過程中使用了狀態(tài)轉移概率函數(shù)根據(jù)狀態(tài)間的已知轉移概率來更新值函數(shù)的強化學習方法。動態(tài)規(guī)劃法就是典型的有模型強化學習。
  • 免模型強化學習是指在學習過程中不使用環(huán)境的狀態(tài)轉移概率函數(shù),僅從智能體和環(huán)境交互得到的經(jīng)驗中去學習的強化學習方法。
  • 有模型強化學習和免模型強化學習各有優(yōu)缺點和適用場景,近年來,將有模型強化學習和免模型強化學習相結合構造更高效的強化學習方法,逐漸成為一個新的研究方向。

按照技術來分類

  • 強化學習可以分為經(jīng)典強化學習和深度強化學習。
  • 經(jīng)典強化學習從最優(yōu)控制發(fā)展而來,其基礎理論是動態(tài)規(guī)劃法,主要解決簡單的離散型強化學習問題。
  • 深度強化學習是將經(jīng)典強化學習和現(xiàn)代深度學習相結合,深度強化學習擅長解決連續(xù)型強化學習任務和大規(guī)模強化學習任務。

強化學習的歷史

主要發(fā)展路線

  • 第1條發(fā)展路線是心理學上模仿動物學習方式的試錯法
    • 以嘗試和錯誤學習(Trial-and-Error Learning)為中心的一種仿生心理學方法。
  • 第2條發(fā)展路線是最優(yōu)控制問題,主要使用動態(tài)規(guī)劃法。
    • 貝爾曼方程:通過利用動態(tài)系統(tǒng)中的狀態(tài)信息和引入一個值函數(shù)的概念來定義“最大回報函數(shù)”,而這個“最大回報函數(shù)”就是求解強化學習通用范式的貝爾曼方程。
    • 動態(tài)規(guī)劃法:通過貝爾曼方程來間接求解最優(yōu)控制問題的方法稱為動態(tài)規(guī)劃法(Dynamic Programming,DP)。
    • 馬爾可夫決策過程的引入使最優(yōu)控制問題有了一個標準的數(shù)學模型。1960年提出了基于馬爾可夫決策過程的策略迭代方法。相較于基于貝爾曼方程的方法,策略迭代方法將迭代求解的范式引入最優(yōu)控制問題求解中。
    • 使用動態(tài)規(guī)劃法求解最優(yōu)控制問題最大的困難在于“維數(shù)災難”,當問題的狀態(tài)空間連續(xù)或狀態(tài)空間巨大時,動態(tài)規(guī)劃求解需要巨大的計算資源。
  • 第3條發(fā)展是基于時序差分求解,將試錯法和動態(tài)規(guī)劃法有機地結合起來。

強化學習與機器學習的關系

  • 現(xiàn)代深度強化學習不僅用于解決控制問題,而且還用于解決決策問題、最優(yōu)化問題、博弈論問題、對策論問題等。
  • 強化學習和監(jiān)督學習的區(qū)別在于強化學習不需要事先準備好訓練數(shù)據(jù),更沒有輸出作為監(jiān)督來指導學習過程。
  • 強化學習有環(huán)境反饋的即時獎勵和由即時獎勵構成的回報,但即時獎勵和回報與監(jiān)督學習的輸出不一樣,它們并不是事先給出的,而是延后給出的。
  • 強化學習的每步與時間順序前后關系密切,而監(jiān)督學習的訓練數(shù)據(jù)一般是相互獨立的,即相互之間沒有依賴關系。
  • 將強化學習和深度學習相結合的深度強化學習已經(jīng)和監(jiān)督學習密不可分了。

強化學習的模型

  • 強化學習過程包括環(huán)境、智能體、策略等基本組成部分。


    001強化學習基本模型.jpg

強化學習的基本組成要素

  • 強化學習的基本模型:在時間步t,智能體感知環(huán)境的狀態(tài)St,根據(jù)當前策略π選擇需要執(zhí)行的動作at,智能體對環(huán)境施行動作at后環(huán)境狀態(tài)轉移到St+1,與此同時環(huán)境給智能體一個反饋信息rt+1,智能體根據(jù)這一反饋信息適當?shù)卣{整當前策略,以使下一時間步根據(jù)調整后的策略執(zhí)行的動作會得到更好的環(huán)境反饋,至此當前時間步結束,系統(tǒng)進入下一個時間步。此循環(huán)一直進行,直到智能體學習到最優(yōu)策略為止。
  • 強化學習的基本組成要素如下:
    • (1)智能體(Agent):策略學習的主體,作為學習者或決策者存在。
    • (2)環(huán)境(Environment):智能體以外的一切,主要用狀態(tài)進行描述。
    • (3)狀態(tài)(State):表示環(huán)境特點的數(shù)據(jù),可以是向量、矩陣、圖片或其他類型的數(shù)據(jù),環(huán)境在t時刻的狀態(tài)用符號St或st表示。所有可能的環(huán)境狀態(tài)的全體稱為狀態(tài)集合或狀態(tài)空間,用S表示。
    • (4)動作(Action):表示智能體做出決策的數(shù)據(jù),即向環(huán)境施加動作的數(shù)據(jù),數(shù)據(jù)形式可以是一個動作編號、One-Hot向量或一般向量,智能體在t時刻向環(huán)境施加的動作用符號At或at表示。智能體所有可能執(zhí)行的動作的全體稱為動作集合或動作空間,用A表示。智能體在狀態(tài)st時能夠執(zhí)行的合法動作的集合記為A(st)。
    • (5)獎勵(Reward):表示環(huán)境在交互過程中反饋給智能體的信息,一般用一個實數(shù)表示,即rt∈R。一般來講獎勵值越大表明環(huán)境對智能體施加的動作的反饋越正向。
    • (6)策略(Policy):智能體在某一狀態(tài)下采取何種動作的一種決策機制,是智能體學習優(yōu)化的對象,用π表示智能體的當前策略。

強化學習的執(zhí)行過程

  • 根據(jù)強化學習的基本模型和組成要素,強化學習的執(zhí)行過程可以歸納如下:
    • 步驟1:智能體感知當前環(huán)境狀態(tài)。
    • 步驟2:智能體根據(jù)當前策略選擇將要執(zhí)行的動作。
    • 步驟3:智能體選擇的動作被施加到環(huán)境中,迫使環(huán)境狀態(tài)發(fā)生轉移。
    • 步驟4:環(huán)境狀態(tài)發(fā)生轉移,同時,環(huán)境向智能體發(fā)出一個反饋信號。
    • 步驟5:智能體根據(jù)接收的環(huán)境反饋信號適當?shù)貎?yōu)化自己的策略。
    • 步驟6:轉步驟1,開始下一次交互,直到環(huán)境達到終止狀態(tài)。
  • 從步驟1到步驟5的過程叫作智能體和環(huán)境發(fā)生一次交互,或一個時間步。智能體和環(huán)境的交互會一直進行,直到環(huán)境達到終止狀態(tài)為止(若存在終止狀態(tài))。這時,智能體和環(huán)境完成了一個包括多次交互的完整過程,稱為一局(Episode)。

馬爾可夫決策過程

  • 馬爾可夫性,也稱無后效性,是指在時間步t+1時,環(huán)境的反饋僅取決于上一時間步t的狀態(tài)st和動作at,與時間步t-1及之前時間步的狀態(tài)和動作沒有關系。
  • 馬爾可夫決策過程(Markov Decision Process,MDP)依賴于時序的且具有馬爾可夫性的決策過程。
  • 一般的馬爾可夫決策過程由狀態(tài)空間S、動作空間A、狀態(tài)轉移概率函數(shù)p和獎勵函數(shù)R(或r)來描述,即四元組MDP=(S,A,p,R)。
  • 強化學習中的馬爾可夫決策過程增加了一個折扣系數(shù)γ,用于計算累積折扣獎勵,所以用于強化學習的馬爾可夫決策過程由一個五元組構成,即MDP=(S,A,p,R,γ)。
    • S:狀態(tài)空間,表示環(huán)境的所有可能狀態(tài)組成的集合。
    • A:動作空間,表示智能體能對環(huán)境施加的所有可能動作組成的集合。
    • p:狀態(tài)轉移概率函數(shù),表示環(huán)境在當前狀態(tài)s下,被智能體施行動作a,狀態(tài)轉移到s′的概率。狀態(tài)轉移概率在數(shù)學上可以定義為一個條件概率函數(shù),
    • R:獎勵函數(shù),表示環(huán)境在當前狀態(tài)s下,被智能體施行動作a后反饋給智能體的獎勵值。
    • γ:折扣系數(shù),用于計算累積折扣獎勵。
  • 馬爾可夫序列(MDP Sequence)或馬爾可夫鏈(MDP Chain):根據(jù)馬爾可夫決策過程,智能體和環(huán)境進行一局交互后,可以得到一條由狀態(tài)、動作、獎勵組成的序列,即一次交互的數(shù)據(jù)St,At,Rt+1,St+1,t=0,1,…,T-1


    001馬爾科夫鏈.jpg
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯(lián)系作者。

推薦閱讀更多精彩內容