StyleTransferforRobustRL

Paper Reading(Style Transfer for Robust Policy Optimization)

Method Overview

image-20231009145500071

  1. 聚类算法:根据Observation不同(背景颜色,图片等)进行聚类
  2. generator:将一个cluster的视觉信息转换到另一个cluster,希望转换前后动作概率转换最大
  3. policy网络更新:希望最大化累积奖励的同时最小化Translation effect,即希望generator状态变化前后动作分布变化太大

2,3实际上优化一个minmax的目标

Adversarial Robust Policy Optimization

Annotation

  1. $x_t$原始状态
  2. $x_t^\prime$经过generator做state transfer得到的状态

训练Policy Net

  1. 满足最大化Cumulative Reward

image-20231009163114406

  1. 满足使得变换前后state对应策略的分布尽量相似

训练Generator Network

  1. 聚类,为了区分多个Domain的数据,作者借助GMM对ResNet提取的Image Embedding进行聚类,每一类代表一个Domain的Observation
  2. 欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗欺骗**policy和判别器

之前的基于对抗学习的多对一图像风格转换需要构建两个网络:Discriminator(D)和Generator(G),D用于评价生成图像的好坏,损失函数为

Generate G在Multi2One的基础上增加了一项,目标是最大化变换前后的策略距离

image-20231010151800440

个人觉得这有些不太合理,没弄明白为啥minimax

Multi2One Image Translation

现有方法的主要问题

  1. 只能实现单个Domain到单个Domain的迁移
  2. 不能利用跨多个Domain的global feature
  3. 数据集标签不全

解决方法

  1. Generator输入不仅包括图片,还有对应的Domain信息
  2. 借助one-hot编码Domain信息,训练过程中随机生成target domain label,这样在训练过程中可以通过控制Domain Label以实现对任意风格的迁移

前序工作

  1. GAN
  2. Conditional GAN
  3. Image-toImage Translation

Method

overview

Discriminator D输入图像,作用是

  1. 判断图像来自真实数据集还是由Generator G生成
  2. 给定图像属于各个Domain的概率

训练采取监督学习范式训练

image-20231010120209545

生成网络G输入Target Domain Embedding和输入图像,生成Fake Image(Real2Fake)

image-20231010120326358

生成的Fake Image和原始图像所属的Domain再次作为输入,喂给G希望生成的Reconstruct图像和输入Image相似(Cycle Consistency)

image-20231010120436554

生成器训练的目标是使得输出图像对于判别器不可区分

Anotation

  1. x:input image
  2. target domain** label
  3. y:output image(Fake Image)

生成网络G被形式化为

Discriminator network D记作

损失函数

误导误导导**判别器得到不正确的结论

Domain Classification Loss希望对于Real/Fake Image都能判别出真实的label,对于真实图片x以及对应的origin domain label $c^\prime$,目标是

给定变换Target label c后得到的Generator Image,认为其Label是$c$

Reconstruct Loss希望在经过recycle之后的该图像和输入相同

Generator/Discriminative Loss是上述4个Loss函数的组合

image-20231010142746747

训练

这里讨论了数据集包含multiple label的问题,即单个instance可以用多个属性去刻画之,希望在推理时可以控制使用哪个方面的属性实现风格迁移

  1. CelebA包含hair color和gender的标注
  2. RaFD包含facial expression的标注

作者提出Mask Vector解决标注不完全的情况

给定一个one-hot n-dimensional向量m,n是书籍及数量,label定义为

$c_i$为第i个数据集中所有label组成的向量,在推理某个数据集时,设置正确的m向量(onehot),随后将除了$c_i$以外的所有特征向量置为0

image-20231010145835164

利用Discriminator预测Image所属的Domain时也需要考虑m向量的取值

本站访客数人次