MC Basic算法的实例分析
MC Basic算法在简单策略优化中的应用
刚才提到mc basic算法因为过于简单,效率较低,在实际中不会使用,但它对于理解强化学习的核心思想非常关键。
我们来看一个例子,假设有一个初始策略π0\pi_0π0,除了在状态s1s_1s1和s3s_3s3处策略不太好之外,在其他状态策略都还不错。我们从π0\pi_0π0出发,应用mc basic算法去寻找最优策略。
mc basic算法和policy iteration一样,分为两个步骤:
Policy evaluation:需要求出qπk(s,a)q_{\pi_k}(s, a)qπk(s,a),对于任意的状态sss和动作aaa。在这个例子中,一共有九个状态,每个状态对应五个动作,所以共有454545个状态-动作对(s,a)(s, a)(s,a),即要找到454545个qπkq_{\pi_k}q