Offline RL TD3+BC

Offline RL(TD3+BC)

基于TD3添加Batch Constrain约束项

Review(TD3)

解决DQN的高估问题的一个思路是引入Double DQN,用两个同构网络估计Q值并取较小者,这样实现Q值的Conservative Estimation

将这个思路引入DDPG就是TD3,这样TD3总共包括三个网络

  1. Actor Net/Target Actor Net
  2. Critic Net/Target Critic Net(各两个)

延迟更新

Actor更新相比Critic延迟更新,即Critic更新若干Step后再更新Actor(避免Q值不稳定导致Actor不稳定)

这个问题我之前思考过,严格意义上Q拟合的不是optimal value function而是policy value function,频繁更改policy显然会对Q值估计缠身不过影响

target policy smoothing regularization

再action上增加扰动,用一个邻域而不是一个点估计Q

增加Batch Constrain

再Q值梯度上升中添加正则项

类似BCQ用生成模型拟合数据集,这里为了减少OOD error使得当前策略和数据集中行为更相似

如何扩展到离散动作空间?离散动作空间下Actor输出动作空间上的概率分布,这样对于k个动作上的k个分布

计算Q值采取加权

策略约束使用NLL Loss,即认为数据集是一个deterministic的策略

本站访客数人次