IROS Paper Reading(Object-Centric 3D Representation)
Paper Reading(Object-Centric 3D representation)
TLDR
- 建立以物体为中心的感知模型,专注于任务相关的视觉部分,提升environment上的泛化性
- 感知具备3D感知能力,这样做的好处在于统一多视角观测,使得模型在视角发生变化的情况下成功泛化
Task
构建开放世界具备泛化性的策略
- 基于交互式分割模型以及单帧上的简单标记对任务相关的物体生成mask
- 基于视频物体分割(VOS)模型传播单帧上的分割结果到争端视频中
- 将2D segmentation mask传播到3D点云上
- 基于分割点云训练端到端策略
Generalization during deployment
- 基于开放词汇分割模型生成一系列object-level mask
- 基于DINOv2利用标注的object mask计算分割生成的object-level mask之间的语义相似度
Dimension of Generalization
作者将generalization分成了以下几类
- 改变背景
- 改变相机位姿
- 改变物体(颜色、大小和几何形态)
Open-vocabulary Object-Centric 3D end-to-end Policy
Object-centric 3D representation
- 人类标注产生task-related 物体
- 人类仅仅标注一帧需要关注的物体,我们在时许上连续的若干帧追踪标注的结果
- 将分割结果投影回点云
构建端到端基于点云的策略
端到端策略输入包括多物体的局部点云、一个timestep以及一个action token(用于译码),策略设计的一些细节包括
- 将输入点云cluster为多个部分
- 随机mask掉输入点云的一些token
- 同时接收过去多个timestep的多个observation输入
Segmentation Corrrespondence Model
这一部分是为了做验证时泛化设计的,在验证时为了避免对第一帧进行人工标记,作者采取SAM对第一帧进行分割,通过计算分割视觉嵌入和训练数据中的mask嵌入进行检索找到一个最匹配的mask,从而实现空间点云提取
问题
- 进入Embodied AI这个领域,看Manipulation RLbench刷点 更加清晰的cluster
- 是否pretrain-finetune能否提升模型的泛化
- 大家都在干什么,我们都在干什么