Paper Reading——Latent-Variable Advantage-Weight Policy Optimization for Offline RL

[TOC]

概述

强化学习数据集异构——来自多个数据收集者
1. 强化概率偏移
隐变量策略代表更广阔的策略分布

Intro

存在不同状态下多个动作都可以带来高奖励。获取隐空间下的高优势动作采样

例子

多模态数据集：训练数据来自三个任务（1）推物品（2）抓东西（3）打开盒子，现在学习的任务是将一个物品移动到指定地点，通过（1），（2）可以实现。直接在动作空间上学习可能采样到OOD的动作。LAPO建立状态空间的隐变量将产生高奖励的动作映射到一个聚类中心附近，这样保证在聚类中心附近采样可以得到较好的动作。(原始动作空间中产生好奖励的动作可能不在一起)

记号

离线强化学习

Q学习目的是最小化TDerror

$\arg\min_{Q_\phi}E_{\mathcal D}[(r(s_t,a_t)+\gamma V(s_{t+1})-Q_\phi(s_t,a_t))^2]$

价值函数$V(s)=E_{\pi_\theta(a|s)}[Q_\phi(s,a)]$，可以从Q函数中按照策略采样若干动作得到

KL散度进行隐式策略限制

避免经验策略和探索策略相差太多(前提是收集策略足够好)

$\arg\max_\pi E_{s|\mathcal D}E_{\pi(a|s)}[A(s,a)]\\ s.t E_{s\in \mathcal D}[D(\pi_\theta(a|s),\pi_\beta(a|s))]< \epsilon$

现实中$\pi_\beta$是位置的，最优策略写成

$\pi^*(a|s) \approx \pi_\beta(a|s)\exp{\frac{A(s,a)}{\lambda}}$

最大容忍策略差*的常数，将$\pi^的常数，将$\pi^$视为无参数的策略，优化目标变成

$\arg\min_\theta E_{\mathcal D}[D_{KL}(\pi^*(a|s)\parallel \pi_\theta(a|s))]$

期望用MC计算

Latent-Variable Advantage-Weighted Policy Optimization

左图：蓝色表明离线数据中实际的动作分布，显然来自两种不同的动作范式，空色表明AWAC从Offline RL中学习到的动作。

右图：黄色是一种生成强化学习方法生成的动作分布，绿线是LAPO生成的动作分布

主要的挑战

如何刻画不同action mode生成的动作分布

LAPO主要思想

学习的策略函数基于隐变量和状态的先验分布，记作$\pi_\theta(a|s,z)$
学习隐策略$\pi_{\psi}(z|s)$

更新策略

估算每个动作的优势
在数据集上针对动作进行回归

动作策略学习通过最大化动作数据的带权对数似然，在此基础上添加

$\max_{\pi_\theta,q_\psi}[\omega \log (\pi_\theta(a|s,z))-\beta D_{KL}[q_\psi(z|s,a)\parallel p(z)]]$

$\pi_\theta(a|s,z)$代表动作策略，基于状态和latent variable的后验分布
$q_\psi(z|s,a)$称为均摊变分分布，用于估算状态、动作下隐变量的条件分布
$p(z)$是先验分布

策略评估

估算$A(s,a)$，在整个策略上采样动作

$V(s) = E_{a|\pi_\theta(\cdot|s,z),z|\pi_\eta(\cdot|s)}[Q_{\phi^\prime}(s,a)]$

策略提升

$\arg\max_{\pi_\eta}E_{a|\pi_\theta(\cdot|s,z),z|\pi_\eta(\cdot|s),s|\mathcal D}[Q(s,a)]$

需要将z限制在一个范围内

本站访客数人次