SayCAN

Paper Reading(Endow the embodied agent with real-world knowledge, SayCan)

Overview of the work

1
2
3
graph LR;
robot--perceiver-->LLM
LLM--contextualinfo-->robot

作者思考了LLM在embodied系统中的优缺点

  1. 具有一些common sense,可以对任务做分解,但是缺乏直接将高维任务分解为机器人可执行的低维指令的能力
  2. 无法grounded in physical world(无法得到现实物理世界动作执行的结果),无法grounded in robot abilities

教会教会教会教会教会教会教会robot原子操作的语义,并评估采取每个动作是否会推进当前状态

  1. LLM描述当前状态下每个skill对于完成整个目标的贡献程度(task-grounding)
  2. affordance function用于描述每个skill成功的概率(scene-grounding)

Method

Notation and Function of Affordance Function

给定instruction i和一个skill set $\Pi$,每个skill $\pi$执行一个底层任务,对应一个底层发文本描述$l_\pi$。对于当前状态s和每个skill $\pi$,存在一个affordance function

表示状态s下执行文本描述为$l_\pi$的底层任务成功的概率,翻译为自然语言

1
if I ask the robot to do xxx, will it do it

RL中将affordance视为某种reward,1视为执行成功,0视为执行失败,对于每个instruction i,我们利用LLM的常识计算概率$p(l_\pi|i)$,作为planning(任务分解,task grounding),$p(c_\pi|s,l_\pi)$被视为刻画任务是否能在现实世界中执行的评价,对于整个任务i完成的概率$c_i$可以写成

对任务做分解(借助常识),结合具体情况询问LLM每步子任务是否能通过规划完成

LLM for Robot

  1. 需要显式告诉LLM可以分解的skills(通过Prompt Engineer)
  2. 根据LLM计算candidate prompt score(从$\Pi$中选择不同action)

SayCAN(Contextual Awareness)

选择$\pi$

Affordance Function从何而来

本站访客数人次