Offline RL(TD3+BC)

基于TD3添加Batch Constrain约束项

Review(TD3)

解决DQN的高估问题的一个思路是引入Double DQN，用两个同构网络估计Q值并取较小者，这样实现Q值的Conservative Estimation

$Q(s,a) = \min_{i=1,2} Q_{\theta_i}(s,a)$

将这个思路引入DDPG就是TD3，这样TD3总共包括三个网络

Actor Net/Target Actor Net
Critic Net/Target Critic Net(各两个)

延迟更新

Actor更新相比Critic延迟更新，即Critic更新若干Step后再更新Actor(避免Q值不稳定导致Actor不稳定)

这个问题我之前思考过，严格意义上Q拟合的不是optimal value function而是policy value function，频繁更改policy显然会对Q值估计缠身不过影响

target policy smoothing regularization

再action上增加扰动，用一个邻域而不是一个点估计Q

增加Batch Constrain

再Q值梯度上升中添加正则项

$\arg\max_\pi E_{(s,a)\in D}[\lambda Q(s,\pi(s)) - (\pi(s) - a)^2]$

类似BCQ用生成模型拟合数据集，这里为了减少OOD error使得当前策略和数据集中行为更相似

如何扩展到离散动作空间？离散动作空间下Actor输出动作空间上的概率分布，这样对于k个动作上的k个分布
$p_1,p_2,\cdots,p_k$
计算Q值采取加权
$Q(s,a) = \sum_i p_iQ(s,a_i)$
策略约束使用NLL Loss，即认为数据集是一个deterministic的策略

本站访客数人次