最近,大规模扩散模型在文本到图像(T2i)一代方面取得了令人印象深刻的进步。为了进一步为这些T2I模型配备精细的空间控制,ControlNet之类的方法引入了一个额外的网络,该网络学会遵循条件图像。但是,对于每种条件类型,ControlNet都需要在数百个GPU小时内进行数百万个数据对进行独立的培训,这非常昂贵,并且使普通用户探索和开发新类型的条件变得具有挑战性 ...
0 0 0 2025/05/31 arXiv:2410.09400v2 smallz
最近,使用DeepSeek-R1-Zero-Zero风格的增强学习(RL)在可验证的奖励上转向训练大语言模型(LLM)的范式转变,导致了代码和数学推理的令人印象深刻的进步。但是,这种方法仅限于可能的任务,在该任务中,基于规则的答案验证是可能的,并且自然不会扩展到化学,医疗保健,工程,法律,生物学,商业和经济学等现实领域。当前的实用变速器使用额外的LLM作为基于模型的验证者;但是,这引入了诸如依赖强 ...
0 0 0 2025/05/31 arXiv:2505.21493v1 xujiu
自主驾驶的视觉语言动作(VLA)模型表现出希望,但在非结构化的角案例中步履蹒跚,这在很大程度上是由于有针对性的基准的稀缺性。为了解决这个问题,我们介绍了即兴VLA。我们的核心贡献是即兴的VLA数据集:超过80,000个经过精心策划的视频剪辑,这些剪辑从来自8个开源大型大型数据集中的2m以上源剪辑中提炼出来 ...
0 0 0 2025/05/31 arXiv:2505.23757v1 蔡明方
通过将端到端学习与从Web-Scale Vision-Language Model(VLM)培训中转移语义知识的转移,视觉语言动作(VLA)模型通过将端到端学习与语义知识的转移相结合,为诸如机器人等物理系统(例如机器人)提供了强大的方法。但是,实时控制的限制通常与VLM的设计不一致:最强大的VLM具有数十亿或数百亿个参数,存在实时推理的障碍,并以离散 Token 而不是连续价值的输出来操作控制机器 ...
0 0 0 2025/05/31 arXiv:2505.23705v1 蔡明方
体现的视觉跟踪是体现AI的一项基本技能,使代理只能使用以自我为中心的视觉在动态环境中遵循特定目标。此任务本质上是具有挑战性的,因为它需要在严重的遮挡和高场景动态的条件下进行准确的目标识别和有效的轨迹计划。现有方法通常通过模块化的认可和计划来应对这一挑战 ...
0 0 0 2025/05/31 arXiv:2505.23189v1 蔡明方
视觉语言动作(VLA)模型通过利用预验证的视觉和语言表示,具有先进的通用机器人操作。但是,他们在需要涉及力的细粒度控制的接触式任务上挣扎,尤其是在视觉阻塞或动态不确定性下。为了解决这些局限性,我们建议\ textbf {forcevla},这是一种新颖的端到端操纵框架,将外部力传感视为VLA系统中的一流模态 ...
0 0 0 2025/05/31 arXiv:2505.22159v1 蔡明方
视觉语言动作(VLA)模型已成为机器人技术中的下一代模型。但是,尽管利用强大的预训练的视觉模型(VLMS),但现有的端到端VLA系统在微调过程中通常会失去关键功能,因为该模型适应了特定的机器人任务。我们认为,可概括的VLA模型应保留并扩展VLM的核心能力:1)开放世界体现的推理 -  VLA应继承VLM的知识,i ...
0 0 0 2025/05/31 arXiv:2505.21906v1 蔡明方
随着体现人工智能的发展,诸如视觉语言行动(VLA)模型之类的端到端控制政策已成为主流。现有的VLA型号面临昂贵的计算/存储成本,需要优化。量化被认为是最有效的方法,它不仅可以降低记忆成本,还可以实现计算加速 ...
0 0 0 2025/05/31 arXiv:2505.21567v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)