SayCAN
Paper Reading(Endow the embodied agent with real-world knowledge, SayCan)
Overview of the work
1 | graph LR; |
作者思考了LLM在embodied系统中的优缺点
- 具有一些common sense,可以对任务做分解,但是缺乏直接将高维任务分解为机器人可执行的低维指令的能力
- 无法grounded in physical world(无法得到现实物理世界动作执行的结果),无法grounded in robot abilities
教会教会教会教会教会教会教会robot原子操作的语义,并评估采取每个动作是否会推进当前状态
- LLM描述当前状态下每个skill对于完成整个目标的贡献程度(task-grounding)
- affordance function用于描述每个skill成功的概率(scene-grounding)
Method
Notation and Function of Affordance Function
给定instruction i和一个skill set $\Pi$,每个skill $\pi$执行一个底层任务,对应一个底层发文本描述$l_\pi$。对于当前状态s和每个skill $\pi$,存在一个affordance function
表示状态s下执行文本描述为$l_\pi$的底层任务成功的概率,翻译为自然语言
1 | if I ask the robot to do xxx, will it do it |
RL中将affordance视为某种reward,1视为执行成功,0视为执行失败,对于每个instruction i,我们利用LLM的常识计算概率$p(l_\pi|i)$,作为planning(任务分解,task grounding),$p(c_\pi|s,l_\pi)$被视为刻画任务是否能在现实世界中执行的评价,对于整个任务i完成的概率$c_i$可以写成
对任务做分解(借助常识),结合具体情况询问LLM每步子任务是否能通过规划完成
LLM for Robot
- 需要显式告诉LLM可以分解的skills(通过Prompt Engineer)
- 根据LLM计算candidate prompt score(从$\Pi$中选择不同action)
SayCAN(Contextual Awareness)
选择$\pi$
Affordance Function从何而来