Paper Reading(Style-Agnostic Reinforcement Learning)

实际上参考StyleNet的基本设计，将Instance Normalization的参数设置为可学习的

$z_{adv} = \gamma_{adv}(z) \frac{z-\mu(z)}{\sigma(z)} + \beta_{adv}(z)$

借助PPO/SAC训练Policy网络，SAC的Actor Loss包括

Action Loss写成

$L_{actor}(\psi)= -E_{a_t|\pi}[Q(_\phi(s_t,a_t)) - \alpha \log \pi_\psi(a_t|s_t)]$

next state Value也根据Entropy计算得到，在此基础上定义Divergence Loss，给定的Style Perturb/Style Mixing视觉嵌入$z_{adv}/z_t$，希望policy满足

$\min L_{div} = \min KL(\pi(\cdot|z_t)\parallel \pi(\cdot|z_{adv}))$

我们同时希望我们的Adversarial Perturbation Generator能够尽可能在策略上产生较大的扰动，Generator Loss被记作

$\max L_{gen}(\theta) = \max L_{div}$

对于Critic Loss（TD Error）同样构造类似的损失想用于最小化value之间的差异

$G_{critic} = (V_\phi(z_t) - V_\phi(z_{adv,t}))^2$

本站访客数人次