2021 重啟強化學習(4) 多搖臂老虎機

020.jpg

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發(fā)布視頻解說,注意頭像和簡書使用頭像一致。

我們繼續(xù)來討論多搖臂老虎機問題一些策略

Thompson sampling 算法

在 thompson sampling 算法中,假設每一個搖臂機給出收益都是服從一個概率分布,我們通過試探來學習出搖臂老虎機的背后的概率。怎么能估計怎么能估計概率 p 的概率分布呢? 答案是假設概率 p 的概率分布符合 beta(wins, lose)分布,有兩個參數(shù): wins, lose。每個臂都維護一個 beta 分布的參數(shù)。每次試驗后,選中一個臂,搖一下,有收益則該臂的 wins 增加 1,否則該臂的 lose 增加 1。每次選擇臂的方式是:用每個臂現(xiàn)有的 beta 分布產(chǎn)生一個隨機數(shù) b,選擇所有臂產(chǎn)生的隨機數(shù)中最大的那個臂去搖。

平穩(wěn)與非平穩(wěn)問題

平穩(wěn)問題
  • Q^*(a) 是穩(wěn)定的,不隨時間而變化
  • 隨著觀測樣本的增加,平均估計方法最終收斂于 q^*(a)
非平穩(wěn)問題
  • Q^*(a) 是關于時間的函數(shù)
  • Q^*(a) 的估計需要更關注最近的觀測樣本

因為不平穩(wěn)

Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]

\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}

這樣做的好處就是讓更新更關注最近的效果,

更新步長的選擇

并不是所有的步長選擇 \alpha_n(a) 都保證收斂

  • \alpha_n(a) = \frac{1}{n} 收斂
  • \alpha_n(a) = \alpha 不收斂
收斂條件

\sum_{n=1}^{\infty} \alpha_n(\alpha) = \infty \, and \, \sum_{n=1}^{\infty} \alpha^2_n(\alpha) < \infty

  • 第一個條件保證步長足夠大,克服初值或隨機擾動的影響,收斂與初始值無關
  • 第二個條件保證步長最終會越來越小,小到保證收斂,表示收斂會越來越小

行為選擇策略

  • 如何制定合適的行為選擇策略
    • 貪心策略: 選擇當前估值最好的行為
    • \epsilon 貪心策略: 以一定的概率隨機選擇非貪心行為(non-greedy actions),但是對于非貪心行為不加區(qū)分
  • 行為選擇策略
    • 平衡利用(Exploitation)和探索(Exploration),應對行為估值的不確定性
    • 關鍵: 確定每一個行為被選擇的概率
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容