Conservative Q Learning
Paper Reading(Conservative Q Learning)
学到真实Q值的lower bound,避免因为Bellman iteration带来的误差
Conservative Off-Policy Evaluation
保证Q值的保守估计,目标是
Q=minQEs,a∈D[(Q(s,a)−BπQ(s,a))2](TD error)Q=minQEs∈D,a∈μ(a|s)[Q(s,a)](penalty)上述两个目标Tradeoff,得到
μ是给定的策略,引入行为策略上的价值,得到iteration
令μ=π,得到策略π下的Q值Conservative Estimationbbb
Conservative Q-Learning for Offline RL
添加关于策略μ的Regulation项,得到
R(μ)为给定策略μ和先验策略ρ之间的KL散度,先验策略ρ是动作空间上的均匀分布
执行maxμ得到
μ(a|s)∝ρ(a|s)expQ(s,a)因此有
minQαEs∈D[log∑aexp(Q(s,a))−Ea∈ˆπβ(a|s)[Q(s,a)]]+12Es,a,s′∈D[Q−BπkQk]策略和Q值迭代写成
- 选择随机策略ρ,随机初始化Q函数,得到初始策略μ0
- 执行value iteration,得到新的Q函数Q1
- 令ρ=μk,按照policy得到新策略πk+1
Algorithm
算法中的Equation 4实际上是value iteration