我们介绍 EnerVerse,这是一个专门为机器人操作任务而设计的体现未来空间生成的综合框架。 EnerVerse 无缝集成了用于块内空间建模的卷积和双向注意机制,确保低级一致性和连续性。认识到视频数据中固有的冗余,我们提出了稀疏内存上下文与分块单向生成范例相结合,以能够生成无限长的序列 ...
机器人电机控制需要能够预测环境和交互对象的动态。然而,机器人运动控制中先进的自我监督预训练视觉表示,利用大规模以自我为中心的视频,通常只专注于学习静态内容特征。这忽略了人类视频中关键的时间运动线索,其中隐含着与环境和物体交互和操纵的关键知识 ...
智能代理需要从过去的经验中进行概括,以在复杂的环境中实现目标。世界模型促进了这种概括,并允许从想象的结果中学习行为,以提高样本效率。虽然从图像输入中学习世界模型最近对于某些任务来说已经变得可行,但足够准确地对 Atari 游戏进行建模以导出成功的行为多年来仍然是一个开放的挑战 ...
为了解决复杂环境中的任务,机器人需要从经验中学习。深度强化学习是机器人学习的常见方法,但需要大量的试验和错误来学习,限制了其在物理世界中的部署。因此,机器人学习的许多进步都依赖于模拟器 ...
我们推出了 Unity Perception 包,旨在通过提供易于使用且高度可定制的工具集来简化和加速为计算机视觉任务生成合成数据集的过程。该开源包扩展了 Unity 编辑器和引擎组件,可为几种常见的计算机视觉任务生成完美注释的示例。此外,它还提供了一个可扩展的随机化框架,使用户可以快速构建和配置随机模拟参数,以便在生成的数据集中引入变化 ...
我们调查了公共人工生成文本数据的可用性对 LLM 规模的潜在限制。我们根据当前趋势预测对培训数据不断增长的需求,并估计公共文本数据的总存量。我们的研究结果表明,如果目前的 LLM 发展趋势继续下去,模型将在 2026 年至 2032 年间的数据集上进行训练,该数据集的大小大致等于 2026 年至 2032 年之间可用的公共人类文本数据量,或者如果模型训练过度,则可能会稍早一些 ...
环视鱼眼摄像头通常部署在自动驾驶中,用于车辆周围的 360° 近场感测。这项工作在未校正的鱼眼图像上提出了一个多任务视觉感知网络,使车辆能够感知周围的环境。它由自动驾驶系统所需的六个主要任务组成:深度估计、视觉里程计、语义分割、运动分割、物体检测和镜头污染检测 ...
视觉语言模型 (VLM) 的最新进展和高质量多模态对齐数据的稀缺激发了对合成 VLM 数据生成的大量研究。 VLM 数据构建的传统规范使用字幕和 OCR 专家的混合,或者更强大的 VLM API 和昂贵的人工注释。在本文中,我们提出了 World to Code (W2C),这是一个精心策划的多模式数据构建管道,它将最终生成的输出组织为 Python 代码格式 ...
学习能够解决不同领域的大量任务的多面手实体代理是一个长期存在的问题。强化学习(RL)很难扩展,因为它需要为每项任务进行复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务 ...