Q Learning Q learning 在做S2 action 分析時候, Q learn 會先假設action,但最終計算后不一定實施該actionSarsa 確實直接選擇(S2,A2) Q Learning 過于激進,,選擇最優,,看Maze 例子 就能很清楚的看到兩個算法的實際不同。。人工智能技術文章list