大型模型的快速发展是由于它们通过大规模预培训在学习和概括方面的出色能力所驱动的,它重塑了人工智能的景观(AI)。这些模型现在是广泛应用的基础,包括对话AI,推荐系统,自动驾驶,内容产生,医学诊断和科学发现。但是,他们的广泛部署也使他们面临着重大的安全风险,从而引起了人们对鲁棒性,可靠性和道德影响的担忧 ...
0 0 0 2025/06/04 arXiv:2502.05206v4 xufat
当前学习机器人操作中可扩展政策的努力主要属于两类:一个侧重于“动作”,涉及从广泛的机器人数据收集中克隆的行为,而另一个则强调“视觉”,增强了通过大型视觉数据集的世界模型来增强训练或生成模型的模型概括,也称为世界模型,也称为世界模型。本文提出了一个端到端范式,该范式使用在机器人预测的视觉状态下的逆动力学模型预测动作,称为预测性逆动力学模型(PIDM)。通过关闭视力和动作之间的循环,端到端的PIDM可 ...
0 0 0 2025/06/04 arXiv:2412.15109v1 xiewende
由于其出色的可操作性,无人机已成为重建野外场景的重要工具。辐射场方法的最新进展已取得了显着的渲染质量,为无人机图像的3D重建提供了新的途径。但是,野生环境中的动态干扰物挑战了辐射场中的静态场景假设,而有限的视图约束则阻碍了对基础场景几何形状的准确捕获 ...
0 0 0 2025/06/04 arXiv:2503.16964v1 zhifeiji
尽管线性层的量化已被广泛使用,但其在加速注意力过程方面的应用仍然有限。 SageAttention 利用 8 位矩阵乘法、16 位矩阵乘法与 16 位累加器以及精度增强方法,实现了与 FlashAttention2 相比准确且加速 2 倍的内核。为了在保持精度的同时进一步提高注意力计算的效率,我们提出了 SageAttention2,它利用明显更快的 4 位矩阵乘法 (Matmul) 以及其他精度 ...
0 0 0 2025/06/04 arXiv:2411.10958v5 zhangxinyu
由大型基础模型提供支持的GUI代理可以与数字接口进行交互,从而在Web自动化,移动导航和软件测试中启用各种应用程序。但是,他们日益增长的自主权引起了人们对其安全性,隐私和安全性的关键关注。这项调查研究了GUI代理在五个关键方面的可信度:安全漏洞,动态环境中的可靠性,透明度和解释性,道德考虑和评估方法 ...
0 0 0 2025/06/04 arXiv:2503.23434v1 hhhhh
扩散模型在生成2D图像方面取得了巨大成功。但是,3D内容生成的质量和概括性仍然有限。最先进的方法通常需要大规模的3D资产进行培训,这些资产具有挑战性 ...
0 0 0 2025/06/04 arXiv:2503.01370v2 GUN
当前用于评估大语言模型(LLMS)推理能力的基准面临重大局限性:任务过度简化,数据污染和有缺陷的评估项目。这些缺陷需要更严格的评估方法。为了解决这些局限性,我们引入了Phybench,这是500个原始物理问题的基准,从高中到物理奥林匹克困难 ...
0 0 0 2025/06/04 arXiv:2504.16074v2 guyanmei.gym
了解用户查询在许多应用程序(例如家庭助理,预订系统或建议)中至关重要。因此,建立准确的口语理解(SLU)方法以确保所考虑系统的可靠性至关重要。当前的最新SLU技术依赖大量的培训数据;但是,只有有限的注释示例可用于特定的任务或语言 ...
0 0 0 2025/06/04 arXiv:2506.03035v1 lllyyy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)