Q-learning 和 SARSA是兩種model-free的學習方法,兩者有很多異同點。
比如在評估策略和行動策略上面,評估策略是用來更新Q值表格的(也就是“學習”),行動策略是用來決定下一步行動的。
首先Q-learning 是off-policy 的,翻譯成異策略,也就是評估用的策略和實際行動采用的策略是不一樣的,其中評估策略采用的是貪婪策略,而行動策略采用的是ε-greedy策略;也就是說Q-Learning學到的用來更新Q值的用的是最好的值,而實際上采用的方法卻不是,有點像道理我都懂,卻過不好這一生。
Q-learning
SARSA
而SARSA是on policy的,也就是評估策略和行動策略使用的是相同的方法,即都為也是采用ε-greedy策略。也就是說,SARSA沒學到的方法和用的是同一種,就比較踏踏實實。
refers:
強化學習(七)--Q-Learning和Sarsa