我们如何才能赋予机器人精确操纵物体的能力,同时也能根据抽象概念来推理物体?最近的操纵工作表明,端到端网络可以学习需要精确空间推理的灵巧技能,但这些方法通常无法泛化到新目标或快速学习跨任务的可转移概念。与此同时,通过大规模互联网数据的训练,在学习视觉和语言的通用语义表示方面取得了巨大进展,但这些表示缺乏细粒度操作所需的空间理解。为此,我们提出了一个结合了两全其美的框架:具有语义和空间路径的双流架构,用于基于视觉的操作 ...

0 0 0 0 2024/04/29 arXiv:2109.12098v1 ff

我们引入了 MVDream,这是一种扩散模型,能够根据给定的文本提示生成一致的多视图图像。通过从 2D 和 3D 数据中学习,多视图扩散模型可以实现 2D 扩散模型的通用性和 3D 渲染的一致性。我们证明,这种多视图扩散模型隐式地是与 3D 表示无关的可推广 3D 先验 ...

0 0 0 0 2024/04/24 arXiv:2308.16512v4 ff

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)