我们如何才能赋予机器人精确操纵物体的能力,同时也能根据抽象概念来推理物体?最近的操纵工作表明,端到端网络可以学习需要精确空间推理的灵巧技能,但这些方法通常无法泛化到新目标或快速学习跨任务的可转移概念。与此同时,通过大规模互联网数据的训练,在学习视觉和语言的通用语义表示方面取得了巨大进展,但这些表示缺乏细粒度操作所需的空间理解。为此,我们提出了一个结合了两全其美的框架:具有语义和空间路径的双流架构,用于基于视觉的操作 ...
我们引入了 MVDream,这是一种扩散模型,能够根据给定的文本提示生成一致的多视图图像。通过从 2D 和 3D 数据中学习,多视图扩散模型可以实现 2D 扩散模型的通用性和 3D 渲染的一致性。我们证明,这种多视图扩散模型隐式地是与 3D 表示无关的可推广 3D 先验 ...