020.jpg
如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發(fā)布視頻解說,注意頭像和簡書使用頭像一致。
我們繼續(xù)來討論多搖臂老虎機問題一些策略
Thompson sampling 算法
在 thompson sampling 算法中,假設每一個搖臂機給出收益都是服從一個概率分布,我們通過試探來學習出搖臂老虎機的背后的概率。怎么能估計怎么能估計概率 p 的概率分布呢? 答案是假設概率 p 的概率分布符合 beta(wins, lose)分布,有兩個參數(shù): wins, lose。每個臂都維護一個 beta 分布的參數(shù)。每次試驗后,選中一個臂,搖一下,有收益則該臂的 wins 增加 1,否則該臂的 lose 增加 1。每次選擇臂的方式是:用每個臂現(xiàn)有的 beta 分布產(chǎn)生一個隨機數(shù) b,選擇所有臂產(chǎn)生的隨機數(shù)中最大的那個臂去搖。
平穩(wěn)與非平穩(wěn)問題
平穩(wěn)問題
-
是穩(wěn)定的,不隨時間而變化
- 隨著觀測樣本的增加,平均估計方法最終收斂于
非平穩(wěn)問題
-
是關于時間的函數(shù)
- 對
的估計需要更關注最近的觀測樣本
因為不平穩(wěn)
這樣做的好處就是讓更新更關注最近的效果,
更新步長的選擇
并不是所有的步長選擇 都保證收斂
-
收斂
-
不收斂
收斂條件
- 第一個條件保證步長足夠大,克服初值或隨機擾動的影響,收斂與初始值無關
- 第二個條件保證步長最終會越來越小,小到保證收斂,表示收斂會越來越小
行為選擇策略
- 如何制定合適的行為選擇策略
- 貪心策略: 選擇當前估值最好的行為
-
貪心策略: 以一定的概率隨機選擇非貪心行為(non-greedy actions),但是對于非貪心行為不加區(qū)分
- 行為選擇策略
- 平衡利用(Exploitation)和探索(Exploration),應對行為估值的不確定性
- 關鍵: 確定每一個行為被選擇的概率