');}

Conservative Q Learning

Paper Reading(Conservative Q Learning)

学到真实Q值的lower bound,避免因为Bellman iteration带来的误差

Conservative Off-Policy Evaluation

保证Q值的保守估计,目标是

Q=minQEs,aD[(Q(s,a)BπQ(s,a))2](TD error)Q=minQEsD,aμ(a|s)[Q(s,a)](penalty)

上述两个目标Tradeoff,得到

image-20230512111133673

μ是给定的策略,引入行为策略上的价值,得到iteration

image-20230512110515427

μ=π,得到策略π下的Q值Conservative Estimationbbb

Conservative Q-Learning for Offline RL

添加关于策略μ的Regulation项,得到

image-20230512112333041

R(μ)为给定策略μ和先验策略ρ之间的KL散度,先验策略ρ是动作空间上的均匀分布

执行maxμ得到

μ(a|s)ρ(a|s)expQ(s,a)

因此有

minQαEsD[logaexp(Q(s,a))Eaˆπβ(a|s)[Q(s,a)]]+12Es,a,sD[QBπkQk]

策略和Q值迭代写成

  1. 选择随机策略ρ,随机初始化Q函数,得到初始策略μ0
  2. 执行value iteration,得到新的Q函数Q1
  3. ρ=μk,按照policy得到新策略πk+1

Algorithm

image-20230512114022067

算法中的Equation 4实际上是value iteration

本站访客数1942人次