');}
Processing math: 100%

StyleTransfer for RL

Paper Reading(Style-Agnostic Reinforcement Learning)

image-20231012142103179

  1. Style Mixing:根据随机采样得到的Observation进行特征融合作为Policy网络输入
  2. Style Perturbation:扰动Latent Feature以保证RL模型具有鲁棒性

Style Perturbation Layer

实际上参考StyleNet的基本设计,将Instance Normalization的参数设置为可学习的

zadv=γadv(z)zμ(z)σ(z)+βadv(z)

SAR Objectives

借助PPO/SAC训练Policy网络,SAC的Actor Loss包括

  1. 最大化Q值
  2. 最小化策略熵(倾向于得到确定性策略)

Action Loss写成

Lactor(ψ)=Eat|π[Q(ϕ(st,at))αlogπψ(at|st)]

next state Value也根据Entropy计算得到,在此基础上定义Divergence Loss,给定的Style Perturb/Style Mixing视觉嵌入zadv/zt,希望policy满足

minLdiv=minKL(π(|zt)π(|zadv))

我们同时希望我们的Adversarial Perturbation Generator能够尽可能在策略上产生较大的扰动,Generator Loss被记作

maxLgen(θ)=maxLdiv

对于Critic Loss(TD Error)同样构造类似的损失想用于最小化value之间的差异

Gcritic=(Vϕ(zt)Vϕ(zadv,t))2
本站访客数1956人次