StyleTransferforRobustRL
Paper Reading(Style Transfer for Robust Policy Optimization)
Method Overview

- 聚类算法:根据Observation不同(背景颜色,图片等)进行聚类
- generator:将一个cluster的视觉信息转换到另一个cluster,希望转换前后动作概率转换最大
- policy网络更新:希望最大化累积奖励的同时最小化Translation effect,即希望generator状态变化前后动作分布变化太大
2,3实际上优化一个minmax的目标
Adversarial Robust Policy Optimization
Annotation
- $x_t$原始状态
- $x_t^\prime$经过generator做state transfer得到的状态
训练Policy Net
- 满足最大化Cumulative Reward

- 满足使得变换前后state对应策略的分布尽量相似
训练Generator Network
- 聚类,为了区分多个Domain的数据,作者借助GMM对ResNet提取的Image Embedding进行聚类,每一类代表一个Domain的Observation
- 欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗**policy和判别器
之前的基于对抗学习的多对一图像风格转换需要构建两个网络:Discriminator(D)和Generator(G),D用于评价生成图像的好坏,损失函数为
Generate G在Multi2One的基础上增加了一项,目标是最大化变换前后的策略距离

个人觉得这有些不太合理,没弄明白为啥minimax
Multi2One Image Translation
现有方法的主要问题
- 只能实现单个Domain到单个Domain的迁移
- 不能利用跨多个Domain的global feature
- 数据集标签不全
解决方法
- Generator输入不仅包括图片,还有对应的Domain信息
- 借助one-hot编码Domain信息,训练过程中随机生成target domain label,这样在训练过程中可以通过控制Domain Label以实现对任意风格的迁移
前序工作
- GAN
- Conditional GAN
- Image-toImage Translation
Method
overview
Discriminator D输入图像,作用是
- 判断图像来自真实数据集还是由Generator G生成
- 给定图像属于各个Domain的概率
训练采取监督学习范式训练

生成网络G输入Target Domain Embedding和输入图像,生成Fake Image(Real2Fake)

生成的Fake Image和原始图像所属的Domain再次作为输入,喂给G希望生成的Reconstruct图像和输入Image相似(Cycle Consistency)

生成器训练的目标是使得输出图像对于判别器不可区分
Anotation
- x:input image
- target domain** label
- y:output image(Fake Image)
生成网络G被形式化为
Discriminator network D记作
损失函数
误导误导导**判别器得到不正确的结论
Domain Classification Loss希望对于Real/Fake Image都能判别出真实的label,对于真实图片x以及对应的origin domain label $c^\prime$,目标是
给定变换Target label c后得到的Generator Image,认为其Label是$c$
Reconstruct Loss希望在经过recycle之后的该图像和输入相同
Generator/Discriminative Loss是上述4个Loss函数的组合

训练
这里讨论了数据集包含multiple label的问题,即单个instance可以用多个属性去刻画之,希望在推理时可以控制使用哪个方面的属性实现风格迁移
- CelebA包含hair color和gender的标注
- RaFD包含facial expression的标注
作者提出Mask Vector解决标注不完全的情况
给定一个one-hot n-dimensional向量m,n是书籍及数量,label定义为
$c_i$为第i个数据集中所有label组成的向量,在推理某个数据集时,设置正确的m向量(onehot),随后将除了$c_i$以外的所有特征向量置为0

利用Discriminator预测Image所属的Domain时也需要考虑m向量的取值