一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning with Local Search MCMC Layers

将组合优化层集成到神经网络中最近引起了重大的研究兴趣。但是，许多现有的方法缺乏理论保证或在依靠不精确求解器时无法充分执行。这是一个关键的局限性，因为许多操作研究问题都是NP-HARD，通常需要使用基于邻里的本地搜索启发式方法 ...

0 0 0 2025/05/27 arXiv:2505.14240v1 odenkkk

Localized Adversarial Domain Generalization

深度学习方法可能难以处理训练数据中看不到的领域变化，这可能会导致它们无法很好地推广到看不见的领域。这导致了对领域概括（DG）的研究关注，该关注旨在旨在模型的分布能力。对抗领域的概括是一种流行的DG方法，但是常规方法（1）难以充分地位，以使当地社区混合在各个领域中； （2）可能会遭受特征空间过度崩溃，这可能威胁到概括性能 ...

0 0 0 2025/05/27 arXiv:2205.04114v1 15966829631

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization

视觉语言动作（VLA）模型通过直接从多模式输入启用端到端决策来具有高级机器人控制。但是，它们紧密耦合的体系结构暴露了新的安全漏洞。与传统的对抗性扰动不同，后门攻击代表了在新兴培训范式下，在新兴的培训范式下，在VLA模型的背景下，在新兴培训范式下尤其是局限性的威胁 ...

0 0 0 2025/05/27 arXiv:2505.16640v1 蔡明方

Interactive Post-Training for Vision-Language-Action Models

我们介绍了RIPT-VLA，这是一种简单且可扩展的基础学习的基于互动后的训练后范式，仅使用稀疏的二进制成功奖励，对预识别的视觉语言动作（VLA）模型进行了微调。现有的VLA培训管道在很大程度上依赖于离线专家演示数据和监督模仿，从而限制了他们适应低数据制度下新任务和环境的能力。 RIPT-VLA通过基于动态推出采样和剩余的优势估计来启用稳定的策略优化算法来实现交互式后培训来解决这一问题 ...

0 0 0 2025/05/27 arXiv:2505.17016v1 蔡明方

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

我们介绍了Scanbot，这是一种新型数据集，旨在在机器人系统中进行指导条件的高精度表面扫描。与现有的机器人学习数据集相反，该数据集的重点是掌握，导航或对话等粗略任务，Scanbot的目标是工业激光扫描的高精度需求，在该扫描中，亚毫米路径的连续性和参数稳定性至关重要。该数据集涵盖了由机器人在12个不同对象和6种任务类型中执行的激光扫描轨迹，包括全表面扫描，以几何为重点的区域，空间引用的零件，功能相 ...

0 0 0 2025/05/27 arXiv:2505.17295v1 蔡明方

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

最近，通过模仿人类的示范，最近的高容量视觉语言动作（VLA）模型在一系列机器人操纵任务上表现出了令人印象深刻的表现。但是，在访问量有限的情况下利用离线数据将导致在分发场景中导致执行失败。直观地，一种基于探索的方法在测试时间改进在线收集的数据可以解决此限制 ...

0 0 0 2025/05/27 arXiv:2505.18719v1 蔡明方

Genie Centurion: Accelerating Scalable Real-World Robot Training with Human Rewind-and-Refine Guidance

尽管视觉语言行动（VLA）模型在各种任务中表现出强烈的普遍性，但机器人政策的现实部署仍然需要大规模的高质量人类专家示范。但是，通过人类近距离的被动数据收集是昂贵的，难以扩展的，并且经常偏向具有有限多样性的被动示范。为了解决这个问题，我们提出了Genie Centurion（Gcent），这是一种基于人类倒带和反复指导的可扩展和一般数据收集范式 ...

0 0 0 2025/05/27 arXiv:2505.18793v1 蔡明方

ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning

Vision语言动作（VLA）模型由于其在将语言指令转换为机器人动作的多模式观察方面的力量，引起了研究社区的关注。尽管它们最近取得了进步，但VLA经常忽略明确的推理，而仅学习功能性输入映射，从而省略了这些至关重要的逻辑步骤，以解释性和概括为复杂的，长马利琴底的操纵任务。在这项工作中，我们提出了\ textit {prifinevla}，这是一种多模式推理 - 意识到的框架，以教师指导的原因微调vl ...

0 0 0 2025/05/27 arXiv:2505.19080v1 蔡明方

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）