2021 重啟強(qiáng)化學(xué)習(xí)(5) 多搖臂老虎機(jī)(UCB)

020.jpg

如果想觀看相關(guān)視頻可以在西瓜視頻(賬號(hào)zidea)或者嗶哩嗶哩(賬號(hào)zidea2015)找到我發(fā)布視頻解說,注意頭像和簡(jiǎn)書使用頭像一致。

通過一個(gè)問題引入置信區(qū)間

老虎機(jī)
1 1,0,0,1,1,0,0,1,0,1 0.5
2 1 1
3 1,1,0,1,1,1,0,1,1,1 0.8
  • 不只是看平均贏率,還要看贏率的置信度(confidence)

置信區(qū)間

其實(shí)置信區(qū)間沒有那么復(fù)雜,這里簡(jiǎn)單用語言描述一下,就是對(duì) MAB(多搖臂老虎機(jī))我們都是通過嘗試來得到值去推測(cè)其概率分布,那么我們看到均值是否接近真實(shí)值是和我們做實(shí)驗(yàn)次數(shù)多少有關(guān)系的,也就是實(shí)驗(yàn)次數(shù)越多這個(gè)值就越準(zhǔn)確,這是我們想的,如何用數(shù)學(xué)嚴(yán)謹(jǐn)表達(dá)這件事,就引入置信區(qū)間的概念。

  • 定義一個(gè)范圍,均值會(huì)以一定概率落在這個(gè)范圍,例如會(huì) 0.95 的概率,落在在 0.2 到 0.5 內(nèi)
  • 實(shí)驗(yàn)次數(shù)少,置信區(qū)間大,也就是不可靠
  • 實(shí)驗(yàn)次數(shù)增加,置信區(qū)間變窄,估計(jì)越來越準(zhǔn)確

樂觀策略

  • 選擇置信區(qū)間上界最大搖臂老虎機(jī)
  • 通過線性回歸估計(jì)出 \hat{p} 通常會(huì)

置信區(qū)間的上界

  • 假設(shè)已經(jīng)對(duì)老虎機(jī) i 實(shí)驗(yàn)了 m
  • 對(duì)其均值的估計(jì)
    \hat{\mu}_m = \frac{1}{m} \sum_{i=1}^m R_i
  • 一定概率的置信區(qū)間
    |\mu - \hat{\mu}_m| \le b
  • 一定置信區(qū)間的概率
    P(|\mu - \hat{\mu}_m| \le b)

Heoffding's inequality

  • X_1,\cdots,X_m 為獨(dú)立同分布的隨機(jī)變量,取值范圍為 [0,1]
  • 真實(shí)均值 \mu =\mathbb{E}[X]
  • 實(shí)驗(yàn)估計(jì) \hat{\mu}_m \frac{1}{m} \sum_{i=1}^m X_i
    P(|\mu - \hat{\mu}_m| \le b) \le 2 \exp(-2b^2 m) = \delta
  • 置信區(qū)間 b,其中 \delta 是超參數(shù)

2 e^{-2b^2m} \le \delta \rightarrow b \ge \sqrt{\frac{\ln(\frac{2}{\delta})}{2m}}

UCB(Upper confidence smapling) 算法

  • 初始化 \hat{\mu}_1 = \cdots = \hat{\mu}_k = 0 以及 n_1 = \cdots = n_k = 0
  • 每一步,計(jì)算搖臂的 UCB
    UCB(i) = \hat{\mu}_i + \sqrt{\frac{2 \ln t}{n_i}}
  • 總實(shí)驗(yàn)次數(shù) t 越多,置信區(qū)間的 bound 就越大
  • 搖臂老虎機(jī) i 嘗試次數(shù) n_i 越多,置信區(qū)間就越窄
  • 讓每個(gè)搖臂老虎機(jī)總被試,但又考慮已經(jīng)發(fā)現(xiàn)的舉止
UCB 具體操作流程
  • 初始化:對(duì)每一臂都嘗試一次
  • 按照如下公式計(jì)算每個(gè)臂的分?jǐn)?shù),然后選擇分?jǐn)?shù)最大的臂作為選擇

UCB(i) = \hat{\mu}_i + \sqrt{\frac{2 \ln t}{n_i}}

  • 觀察結(jié)果更新 n_it
  • \hat{\mu}_i 這個(gè)臂到目前的收益均值
  • \sqrt{\frac{2 \ln t}{n_i}} 是上界,本質(zhì)上是均值的標(biāo)準(zhǔn)差
  • t 是實(shí)驗(yàn)次數(shù) n_i 是搖臂 i 臂的次數(shù)。
  • 這個(gè)公式反映一個(gè)特點(diǎn):均值越大,標(biāo)準(zhǔn)差越小,被選中的概率會(huì)越來越大,同時(shí)哪些被選次數(shù)較少的臂也會(huì)得到試驗(yàn)機(jī)會(huì)。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容