StyleTransferforRobustRL

Gaoustcer 10月 10, 2023

Paper Reading(Style Transfer for Robust Policy Optimization)

Method Overview

聚类算法：根据Observation不同(背景颜色，图片等)进行聚类
generator：将一个cluster的视觉信息转换到另一个cluster，希望转换前后动作概率转换最大
policy网络更新：希望最大化累积奖励的同时最小化Translation effect，即希望generator状态变化前后动作分布变化太大

2，3实际上优化一个minmax的目标

Adversarial Robust Policy Optimization

Annotation

$x_t$原始状态
$x_t^\prime$经过generator做state transfer得到的状态

训练Policy Net

满足最大化Cumulative Reward

满足使得变换前后state对应策略的分布尽量相似 $\min KL(\pi_\theta(\cdot|x_t)\parallel \pi_\theta(\cdot|x_t^\prime))$

训练Generator Network

聚类，为了区分多个Domain的数据，作者借助GMM对ResNet提取的Image Embedding进行聚类，每一类代表一个Domain的Observation
欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗**policy和判别器

之前的基于对抗学习的多对一图像风格转换需要构建两个网络：Discriminator(D)和Generator(G)，D用于评价生成图像的好坏，损失函数为

$L_{D} = -L_{adv} + \lambda_{cls}L_{cls}^\tau$

Generate G在Multi2One的基础上增加了一项，目标是最大化变换前后的策略距离

个人觉得这有些不太合理，没弄明白为啥minimax

Multi2One Image Translation

现有方法的主要问题

只能实现单个Domain到单个Domain的迁移
不能利用跨多个Domain的global feature
数据集标签不全

解决方法

Generator输入不仅包括图片，还有对应的Domain信息
借助one-hot编码Domain信息，训练过程中随机生成target domain label，这样在训练过程中可以通过控制Domain Label以实现对任意风格的迁移

前序工作

GAN
Conditional GAN
Image-toImage Translation

Method

overview

Discriminator D输入图像，作用是

判断图像来自真实数据集还是由Generator G生成
给定图像属于各个Domain的概率

训练采取监督学习范式训练

生成网络G输入Target Domain Embedding和输入图像，生成Fake Image（Real2Fake）

生成的Fake Image和原始图像所属的Domain再次作为输入，喂给G希望生成的Reconstruct图像和输入Image相似（Cycle Consistency）

生成器训练的目标是使得输出图像对于判别器不可区分

Anotation

x:input image
target domain** label
y:output image(Fake Image)

生成网络G被形式化为

$G(x,c) \to y$

Discriminator network D记作

$D:x\to \{D_{src}(x),D_{cls}(x)\}\\ D_{src}：输入图像属于真实数据的概率\\ D_{cls}：输入图像在不同Domain上的概率分布$

损失函数

误导误导导**判别器得到不正确的结论

$L_{adv}= E_{x}[\log D_{src}(x)] + E_{x,c}[\log (1 - D_{src}(G(x,c)))]$

Domain Classification Loss希望对于Real/Fake Image都能判别出真实的label，对于真实图片x以及对应的origin domain label $c^\prime$，目标是

$L_{cls}^r = - \log D_{cls}(c^\prime|x)$

给定变换Target label c后得到的Generator Image，认为其Label是$c$

$L_{cls}^f = - \log D_{cls}(c|G(x,c))$

Reconstruct Loss希望在经过recycle之后的该图像和输入相同

$L_{rec} = \parallel x - G(G(x,c),c^\prime)\parallel$

Generator/Discriminative Loss是上述4个Loss函数的组合

训练

这里讨论了数据集包含multiple label的问题，即单个instance可以用多个属性去刻画之，希望在推理时可以控制使用哪个方面的属性实现风格迁移

CelebA包含hair color和gender的标注

RaFD包含facial expression的标注

作者提出Mask Vector解决标注不完全的情况

给定一个one-hot n-dimensional向量m，n是书籍及数量，label定义为

$c = [c_1,c_2,\cdots,c_n,m]$

$c_i$为第i个数据集中所有label组成的向量，在推理某个数据集时，设置正确的m向量（onehot），随后将除了$c_i$以外的所有特征向量置为0

利用Discriminator预测Image所属的Domain时也需要考虑m向量的取值

本站访客数人次