大型语言模型(LLM)代理人越来越能够自主进行网络攻击,对现有应用构成了重大威胁。这种日益增长的风险凸显了迫切需要进行现实世界中的基准评估LLM代理利用Web应用程序漏洞的能力。但是,现有的基准缺乏,因为它们仅限于抽象的捕获国旗竞赛或缺乏全面的覆盖范围 ...
0 0 0 2025/04/14 arXiv:2503.17332v2 OrganicWater
SGD在 Transformer 上的显着余量比亚当的表现要差,但原因尚不清楚。在这项工作中,我们通过Hessian的镜头提供了一种解释:(i) Transformer 是“异质性”:参数块跨参数块的Hessian频谱差异很大,我们称之为“块异质性”的现象; (ii)异质性HAMPERS SGD:SGD在块异质性问题上的表现要比Adam差。为了验证(i)和(ii),我们检查了各种 Transfor ...
0 0 0 2025/04/14 arXiv:2402.16788v4 IQ_QI
自主驾驶评估需要密切复制实际道路状况的模拟环境,包括现实世界的感觉数据和反应反馈循环。但是,许多现有的模拟需要预测公共数据集或综合影像学数据上的固定路线,\ ie,开环模拟通常缺乏评估动态决策的能力。尽管闭环模拟的最新努力提供了反馈驱动的环境,但它们无法处理视觉传感器输入或产生与现实数据不同的输出 ...
0 0 0 2025/04/14 arXiv:2411.11252v1 k9354465
从演示中学习已显示是一种有效的机器人操作方法,尤其是在最近收集的带有远程操作系统的大规模机器人数据的方法中。在不同的机器人平台上建立有效的远程操作系统已经比以往任何时候都变得更加重要。但是,对于不同的最终效果,e ...
0 0 0 2025/04/13 arXiv:2408.11805v1 fazai001
已证明,在线性顺序上以弹性互动为特征的宇宙学模型已被证明为减轻$ \ sigma_8 $张力提供了有希望的方案。在这些情况下,一个自然的问题是,相互作用和大规模中微子之间是否可能存在堕落,这也有助于彻底消除结构。在这项工作中,我们研究了这种堕落的存在,并表明这两种效应没有显示很强的相关性 ...
0 0 0 2025/04/13 arXiv:2403.03216v1 wsy__
我们介绍了Orb,这是材料原子建模的普遍原子间潜力家族。 ORB模型的速度比现有通用电位快3-6倍,在模拟下,对于一系列分配材料的模拟稳定,并且在释放后,与MATBENCH DISCOVER DISCOUDY基准测试的其他方法相比,误差降低了31%。我们探索了材料基础模型开发的几个方面,重点是预处理 ...
0 0 0 2025/04/13 arXiv:2410.22570v1 ZeHeru
本文介绍了Paint3D,这是一种新颖的粗到精细的生成框架,能够为未纹理的3D网格提供高分辨率,无照明和不同的2K UV纹理图,该图在文本或图像输入上。所解决的关键挑战是在没有嵌入的照明信息的情况下生成高质量的纹理,这使得纹理可以在现代图形管道中重新注射或重新编辑。为此,我们的方法首先利用预训练的深度感知2D扩散模型来生成视图条件图像并执行多视图纹理融合,并产生初始的粗纹理图 ...
0 0 0 2025/04/13 arXiv:2312.13913v2 yuhan
检索授权的生成(RAG)使大型语言模型通过合并外部知识来提供更精确和相关的响应。在以查询为重点的摘要(QFS)任务中,基于GraphRag的方法显着提高了生成的响应的全面性和多样性。但是,现有的基于GraphRag的方法主要集中于粗粒信息摘要而不意识到特定查询,并且检索到的内容缺乏足够的上下文信息来产生全面的响应 ...
0 0 0 2025/04/13 arXiv:2504.07103v1 jwj5452365

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)