Offline RL Survey

Gaoustcer 4月 18, 2023

Offline Reinforcement Learning

Type and Notion of Offline RL

Notion of Offline RL

给定数据集D

$D=\{(s_i,a_i,s_i^\prime,r_i) \}$

在不能与环境交互的前提下学习最佳策略

Type of Offline RL problem

OPE

给定数据，评估一个策略的奖励期望

$J(\pi) =E_\pi[\sum_{t=1}r(s_t,a_t)]$

Offline RL Learning

学习最佳策略$\pi_\theta$

关键问题

找到数据集中有价值的经验
泛化：一个状态下的好动作在另一个状态下不一定好，或者对于没有见过的初始状态同一个算法能否给出好的结果
组合：将多个好动作合成为一个

离线强化学习中必须考虑没有见过的动作和状态(out-of-distribution)，同时超越数据集中的数据

简单看看distribution shift问题

简单的监督回归任务

$\theta \arg\min E_{x|p(x),y|p(y|x)}[(f_\theta(x)-y)^2]$

$，是否有$f(x^f(x^*)\approx E[y|x]$？这要分成两种情况考虑

|p(x^x^*)$，则有大概率判断是真的
|q(x^x^*)$，则可能结论为假

这启示我们如果用$f(x^*)$寻找$E[y|x]$最大值可能是不合理的

Offline RL with Q Learning

对于强化学习任务，TD error计算用到的奖励估算

$Q(s,a)\leftarrow r(s,a)+E_{a^\prime|\pi_{new}}[Q(s^\prime,a^\prime)]$

优化目标是

$\min_Q E_{(s,a)|\pi_\beta}[(Q(s,a)-y(s,a))^2]$

Offline RL with Policy Gradient

RL计算梯度为

$\nabla_\theta J(\theta) = E_{\tau|\pi_\theta(\tau)}[\sum_{t=0}^T \nabla_\theta \gamma^t\log \pi_\theta(a_t|s_t)Q(s_t,a_t)]$

实际上是在环境上采样得到N条轨迹，代替期望，对于offpolicy policy gradient，需要importance sampling系数

$\nabla_\theta J(\theta)\approx \frac{1}{N}\sum_{i=1}^N \frac{\pi_\theta(\tau_i)}{\pi_\beta(\tau_i)} \sum_{t=0}\nabla_\theta \gamma^t \log \pi_\theta(a_{t,i}|s_{t,i})Q(s_{t,i},a_{t,i})$

假设轨迹$\tau = (s_0,a_0,s_1,a_1,\cdots,s_T,a_T,s_{T+1})$

$\pi_\theta(\tau) = \pi(a_0|s_0)\times \pi(a_1|s_1)\times \cdots \times \pi(a_{T}|s_T)$

我们记

$V^{\pi_\theta}(s_t) =\sum_{t^\prime = t}^T \frac{\pi_\theta(\tau)}{\pi_\beta(\tau)} \gamma^{t^\prime - t}$

最终梯度写成

$\nabla_\theta = \frac{1}{N}\sum_{i=1}^N \sum_{t=0}\nabla _\theta \gamma ^t \log \pi_\theta(a_{t,i}|s_{t,i}) V^{\pi_\theta}(s_{t,i})$

基本思想是importance sampling系数由$\prod_{t}\frac{\pi_\theta(a_t|s_t)}{\pi_\beta(a_t|s_t)}$，使用$w(s,a) = \frac{d^{\pi_\theta}(s,a)}{d^{\pi_\beta}(s,a)}$，于是采样方法写成

$\nabla_\theta J(\theta) =\frac{1}{N}\sum_{i=1}^N \sum_{t=0}^T \nabla_\theta \gamma^t \log \pi_\theta(a_{t,i}|s_{t,i}) w(s_{t,i},a_{t,i})$

$w(s,a)$具有的性质，假设$(s,a,s^\prime,a^\prime)$采样自D
$d^{\pi_\beta}(s^\prime,a^\prime) w(s^\prime,a^\prime) = d^{\pi_\theta}(s,a)$

Offline value function estimation

对于奖励存在

Distribution Shift in RL

约束当前策略和探索策略之间的距离

显式约束

要求

$D_{KL}(\pi\parallel \pi_\beta)\leq \epsilon$

存在以下问题

不存在$\pi_\beta$(手工获得数据)
多个RL算法生成的数据
过于乐观/过于消极

分析KL散度

$D_{KL}(\pi\parallel \pi_\beta) = E_\pi[\log \pi(a|s)-\log \pi_\beta(a|s)]=-E_{\pi}[\log \pi(a|s)]+H(\pi)$

reward函数写成

$\overline r(s,a) = r(s,a) -D(\pi,\pi_\beta)$

直接将距离加入到奖励中

隐式约束

$\pi_{new} (a|s) =\arg\max_{(s,a)|\pi_\beta}[\log \pi(a|s)\frac{1}{Z(s)}\exp{\frac{1}{\lambda} A^{\pi_{old}}(s,a)}]$

Advantage function根据Critic方法估算得到，采样来自D

Z(s)是啥？

在Q函数更新时避免OOD问题

Q函数根据如下范式更新

$Q(s,a) \leftarrow r(s,a)+E_{a^\prime|\pi_{new}}[Q(s^\prime,a^\prime)]=r(s,a)+V(s^\prime)$

V函数根据如下方式更新

$V = \arg\min_V \frac{1}{N}\sum_{i=1}^N loss(V(s_i),Q(s_i,a_i)),a_i|\pi_\beta$

Implict Q-learning

每一步更新写为

$Q(s,a) = r(s,a)+V(s^\prime)\\ V\leftarrow \arg\min_V \frac{1}{N}\sum_{i=1}^N l_2^\tau(V(s_i),Q(s_i,a_i))$

Conservative Q-learning

更新参数是加入正则项(TD loss)

$E_{s\in D,a\in \mu(a|s)}[Q(s,a)]$最大化$\mu$，选择带来最大奖励的动作
$E_{(s,a,s^\prime)\in D}[(Q(s,a)-(r(s,a)+E_\pi(Q(s^\prime,a^\prime))))^2]$

选择损失函数

$\alpha E_{s\in D,a\in \mu(a|s)}[Q(s,a)]-\alpha E_{s,a\in D}[Q(s,a)]+regular$

regular指的是从D中抽取$(s,a,s^\prime)$计算的TD loss

算法

在D上优化$\mathcal L_{CQL}(Q^\pi)$
策略函数$\pi(a|s)=\arg\max_a Q^(s,a)$

在此基础上增加一个评估项评估动作概率的entropy

$R=E_{s\in D}[H(\mu(\cdot|s))]$

因为$\mu(\cdot|s)$实际上是$Q(s,a)$softmax化的结果，也可以写成

$E_{a\in (a,s)} =\log \sum_a \exp(Q(s,a))$

Model Based Offline RL

有些类似reward shaping，奖励写成

$\overline r(s,a) = r(s,a)-\lambda u(s,a)$

$u(s,a)$称为uncertainty penalty，刻画model errror

Conservative Model-Based RL

最小化model状态-行为序列对应的Q值，同时增大其对数据集D中状态-动作序列的评估，损失函数分成三个部分

$E_{s,a\in \rho(s,a)}[Q(s,a)]$，这里状态-动作序列由模型生成
$-E_{s,a\in D}[Q(s,a)]$，这里状态-动作序列来自静态数据集
$E_{s,a,s^\prime}[(Q(s,a)-\hat Q^k(s,a))^2]$，刻画TD error

轨迹转化

训练模型预测轨迹的联合概率分布$p(\tau) =p_\beta(s_1,a_2,\cdots,s_T,a_T)$(感觉像是学习行为策略产生某一轨迹的概率)
使用transformer建模序列信息

如何利用model做控制：模拟环境下计算累计奖励，从某个状态开始采样多个路径，选择累计奖励最大的路径

本站访客数人次