模仿学习方法需要大量的人类监督来学习对物体姿势、身体干扰和视觉干扰物变化稳健的策略。另一方面,强化学习可以自主探索环境以学习稳健的行为,但可能需要不切实际的大量不安全的现实世界数据收集。为了学习高性能、稳健的策略,而无需承担不安全的现实世界数据收集或广泛的人工监督的负担,我们提出了 RialTo,这是一种通过在动态构建的“数字孪生”模拟环境中进行强化学习来增强现实世界模仿学习策略的系统。少量的真实世界数据 ...

0 0 0 0 2024/05/08 arXiv:2403.03949v1 czvzb

本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 12 个不同任务的扩散策略进行了基准测试,发现它始终优于现有最先进的机器人学习方法,平均提高了 46.9% ...

0 0 0 0 2024/05/06 arXiv:2303.04137v5 czvzb

收集大量现实世界的交互数据来训练一般的机器人策略通常成本高昂,因此刺激了模拟数据的使用。然而,现有的数据生成方法通常关注场景级多样性(例如 ...

0 0 0 0 2024/05/06 arXiv:2310.01361v2 czvzb

拥有一个可以在不同环境中操纵任意物体的机器人的宏伟目标与机器人数据集的缺乏是不一致的。由于人工工作、运营成本和安全挑战,获取和增长此类数据集非常艰巨。通往这种通用代理的道路需要一个能够广泛泛化但在合理的数据预算内进行训练的结构化框架 ...

0 0 1 3 2024/04/30 arXiv:2309.01918v1 czvzb

事实证明,从大量人类演示中进行的模仿学习是构建有能力的机器人代理的有效范例。然而,收集这些演示可能非常昂贵且耗时。我们引入了 MimicGen,这是一个系统,可以通过使数据适应新的环境,从少量的人类演示中自动合成大规模、丰富的数据集 ...

0 0 0 0 2024/04/29 arXiv:2310.17596v1 czvzb

我们提出了针对嵌入式人工智能的预训练视觉表示(PVR)或视觉“基础模型”的最大、最全面的实证研究。首先,我们策划 CortexBench,包含 17 项不同的任务,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个是普遍占主导地位的 ...

0 0 0 0 2024/04/27 arXiv:2303.18240v2 czvzb

我们研究在不同的人类视频数据上预训练的视觉表示如何能够实现下游机器人操作任务的数据高效学习。具体来说,我们使用 Ego4D 人类视频数据集,结合时间对比学习、视频语言对齐和 L1 惩罚来预训练视觉表示,以鼓励稀疏和紧凑的表示。由此产生的表示 R3M 可用作下游策略学习的冻结感知模块 ...

0 0 0 0 2024/04/27 arXiv:2203.12601v3 czvzb

构建能够在任何环境、任何物体上无缝操作的通用机器人,并利用各种技能完成不同的任务一直是人工智能领域的长期目标。然而不幸的是,大多数现有的机器人系统都受到限制——是为特定任务而设计、在特定数据集上进行训练并在特定环境中部署的。这些系统通常需要广泛标记的数据,依赖于特定于任务的模型,在现实场景中部署时存在许多泛化问题,并且很难对分布变化保持鲁棒性 ...

0 0 0 0 2024/04/19 arXiv:2312.08782v2 czvzb

这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是构建一个简单而强大的基础模型,处理任何情况下的任何图像。为此,我们通过设计数据引擎来收集并自动注释大规模未标记数据(~62M)来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差 ...

0 0 0 0 2024/04/09 arXiv:2401.10891v2 czvzb

我们推出了 Unified-IO 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)标记化到共享语义空间中,然后使用单个编码器-解码器转换器模型对其进行处理 ...

0 0 0 0 2024/04/27 arXiv:2312.17172v1 czvzb

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)