灵巧的操作是机器人系统的基本能力,但是进步受到精确,紧凑,强度和负担能力之间的硬件权衡的限制。现有的控制方法对手部设计和应用造成了妥协。但是,基于学习的方法为重新考虑这些权衡的机会提供了机会,尤其是通过肌腱驱动的驱动和低成本材料应对挑战 ...
0 0 0 2025/06/06 arXiv:2504.13165v1 wchiyu98
操作系统(OS)代理的最新进展使视觉语言模型能够直接与OS的图形用户界面进行交互。这些多模式OS代理通过应用程序编程接口(API)自主执行基于计算机的任务。此类API通常支持低级操作,包括鼠标点击,键盘输入和屏幕截图捕获 ...
0 0 0 2025/06/06 arXiv:2503.10809v1 hhhhh
基于视觉语言模型(VLM)的Web代理通过模拟与网站的类似人类的交互来自动化复杂任务的重要一步。但是,它们在不受控制的Web环境中的部署引入了重大的安全漏洞。现有对对抗环境注入攻击的研究通常依赖于不切实际的假设,例如直接的HTML操纵,用户意图知识或访问代理模型参数,从而限制了其实际适用性 ...
0 0 0 2025/06/06 arXiv:2505.21499v1 hhhhh
机器人机器人操作的最新进展已利用虚拟现实(VR)来增强远程操作系统的精确性和沉浸性,极大地超过了依赖于2D摄像机供稿和操纵杆控制的传统方法。尽管取得了这些进步,但仍然存在挑战,尤其是关于不同设置的用户体验的挑战。本文介绍了一个基于VR的新型Teleperation Framework,该框架旨在集成到移动平台上的机器人操纵器 ...
0 0 0 2025/06/06 arXiv:2504.15229v1 wchiyu98
视觉域中人工智能生成的内容(AIGC)的快速发展导致了由复杂的生成框架(例如基于扩散的架构)驱动的高度逼真的合成图像和视频。尽管这些突破开辟了大量机会,但它们同时引起了人们对内容真实性和完整性的关键关注。许多当前的AIGC检测方法作为黑框二进制分类器的运行,这些分类器具有有限的解释性,没有方法支持在统一框架中检测图像和视频 ...
0 0 0 2025/06/06 arXiv:2506.00979v1 dropout
近年来,视觉上丰富的文档理解引起了人们越来越多的关注。基于 Transformer 的预训练模型已成为主流方法,在该领域带来了显着的性能增长。但是,自我注意机制的二次计算复杂性阻碍了它们的效率和处理长文档的能力 ...
0 0 0 2025/06/06 arXiv:2409.11887v2 leiwu30
由大型视觉和语言模型(VLM)提供动力的自主代理在完成每日计算机任务方面具有巨大的潜力,例如浏览网络以预订旅行和操作台式机软件,这需要代理来了解这些接口。尽管这样的视觉输入越来越多地集成到代理应用中,但周围存在哪些类型的风险和攻击仍然不清楚。在这项工作中,我们证明了VLM代理可以通过一组精心设计的对抗弹出窗口轻松攻击,人类用户通常会识别和忽略它们 ...
0 0 0 2025/06/06 arXiv:2411.02391v2 hhhhh
部分微分方程(PDE)对于描述复杂的物理系统模拟至关重要。他们昂贵的解决方案技术导致人们对基于深神网络的替代物的兴趣增加。但是,训练这种替代物的实际实用性取决于它们对复杂多尺度时空现象进行建模的能力 ...
0 0 0 2025/06/06 arXiv:2209.15616v2 maxwill

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)