k9354465的文档

k9354465

个性签名 ...

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

视觉语言模型 (VLM) 的最新进展和高质量多模态对齐数据的稀缺激发了对合成 VLM 数据生成的大量研究。 VLM 数据构建的传统规范使用字幕和 OCR 专家的混合，或者更强大的 VLM API 和昂贵的人工注释。在本文中，我们提出了 World to Code (W2C)，这是一个精心策划的多模式数据构建管道，它将最终生成的输出组织为 Python 代码格式 ...

0 0 0 0 2025/01/06 arXiv:2409.20424v1 k9354465

GenRL: Multimodal-foundation world models for generalization in embodied agents

学习能够解决不同领域的大量任务的多面手实体代理是一个长期存在的问题。强化学习（RL）很难扩展，因为它需要为每项任务进行复杂的奖励设计。相比之下，语言可以以更自然的方式指定任务 ...

0 0 0 0 2025/01/05 arXiv:2406.18043v2 k9354465

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

GenRL: Multimodal-foundation world models for generalization in embodied agents

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）