Offline RL TD3+BC
Offline RL(TD3+BC)
基于TD3添加Batch Constrain约束项
Review(TD3)
解决DQN的高估问题的一个思路是引入Double DQN,用两个同构网络估计Q值并取较小者,这样实现Q值的Conservative Estimation
将这个思路引入DDPG就是TD3,这样TD3总共包括三个网络
- Actor Net/Target Actor Net
- Critic Net/Target Critic Net(各两个)
延迟更新
Actor更新相比Critic延迟更新,即Critic更新若干Step后再更新Actor(避免Q值不稳定导致Actor不稳定)
这个问题我之前思考过,严格意义上Q拟合的不是optimal value function而是policy value function,频繁更改policy显然会对Q值估计缠身不过影响
target policy smoothing regularization
再action上增加扰动,用一个邻域而不是一个点估计Q
增加Batch Constrain
再Q值梯度上升中添加正则项
类似BCQ用生成模型拟合数据集,这里为了减少OOD error使得当前策略和数据集中行为更相似
如何扩展到离散动作空间?离散动作空间下Actor输出动作空间上的概率分布,这样对于k个动作上的k个分布
计算Q值采取加权
策略约束使用NLL Loss,即认为数据集是一个deterministic的策略