Soft Actor Critic

Soft-Actor Critic(Max Entropy RL to encourage explore)

Reference

  1. Reinforcement Learning with Deep Energy-Based Policies
  2. Soft Actor-Critic

Annotations and Definitions

Entropy用于刻画分布的离散程度,Entropy越大分布集中程度越低,传统的RL算法(Actor-Critic及其变体)仅仅关注最大化累计奖励,这样的一个潜在问题是算法可能收敛于次优策略(不充分探索),为了解决这个问题,我们将每个state对应的策略Entropy作为奖励函数的一部分以鼓励探索

Definition: object of RL based on Entropy

本质上是将原始来自环境的奖励$r(s_t,a_t)$增添了一项

Definition: State Value and State-Action Value

Policy Evaluation/Improvement and Iteration

  1. Policy Evaluation 给定策略(state到分布的映射),计算V值(Temporal Difference,Single/Multi Steps)
  2. Policy Improvement 将计算出的V值视为策略的函数,优化策略提升V值
  3. Policy Iteration=Policy Evaluation Policy Improvement迭代进行若干次

Q学习借助TD Error进行Policy Evaluation,借助最大化Q值或最小化TD Error进行Improvement

Soft Policy Evaluation

Entropy框架实现Soft Policy Evaluation的思路和Q Learning相似

Soft Policy Improvement

如果使用Max Q Value选择Action,算法可能退化为确定性算法

Max-Entropy RL的最大改变在添加Entropy到RL框架后,最优策略退化为正比于Q值指数的概率分布,可以证明采取$\ref{PI}$并添加Entropy到Q函数中则Policy Improvement的结果变为

并且按照这种方式进行策略更新Q函数满足

证明的关键是将$Q^\pi$拆分为当前策略$\pi$和最优策略$\pi^\prime$之间的KL Divergence

进行policy update时Q视为常数,因此$\pi =\pi^\prime$时完成一轮Policy Improvement

显然Maximize $V^\pi(s)$的策略满足

此时

进一步借助Q-V关系

本站访客数人次