我们在视频中介绍了一个开放世界对象的新任务:给定的文本描述或一个指定目标对象的图像示例,目的是列举视频中目标对象的所有唯一实例。在拥挤的场景和类似物体的拥挤场景中,此任务尤其具有挑战性,避免双重计数和识别重新出现至关重要。为此,我们做出以下贡献:我们为此任务介绍了一个模型Countvid ...
0 0 0 2025/06/30 arXiv:2506.15368v1 sssss
随着大型语言模型(LLM)从文本完成工具演变为在动态环境中运行的完全刚起步的代理,他们必须应对不断学习和保留长期知识的挑战。许多生物系统通过情节记忆来解决这些挑战,该记忆支持特定于实例的上下文的单次学习。受此启发,我们为LLM代理提供了一个情节记忆框架,以五个偶发记忆的关键属性为中心,这些记忆是基于自适应和上下文敏感行为的基础 ...
0 0 1 2025/06/30 arXiv:2502.06975v1 18601752667
人形机器人的感知系统设计由于固有的结构约束而引起了独特的挑战,这些结构约束会导致严重的自我概括和有限的视野(FOV)。我们提出了HumanoidPano,这是一种新型的杂交跨模式感知框架,协同整合了全景视觉和LIDAR感应以克服这些局限性。与依靠单眼相机或标准多传感器配置的常规机器人感知系统不同,我们的方法通过球形视觉 Transformer 建立了几何感知的模态对齐,从而使360个视觉上下文的无 ...
0 0 0 2025/06/30 arXiv:2503.09010v2 jane88
培训前最先进的大语言模型(LLMS)需要大量的干净和多样化的文本数据。虽然大型英语预训练数据集的开放开发已经取得了很大的进步,但培训表现的多语言LLMS仍然是一个挑战,在很大程度上是由于对大量语言的固定过滤和重复解说管道的固有困难。在这项工作中,我们引入了基于FineWeb的新的预训练数据集策展管道,可以自动调整以支持任何语言 ...
0 0 0 2025/06/30 arXiv:2506.20920v1 lianzhepku
视觉问题回答(VQA)模型通过允许车辆与文本查询一起分析视觉输入,促进车辆及其乘员或其他道路用户之间的自然互动和信任,从而在增强自动驾驶系统的感知能力方面起着关键作用。这项研究在回答与驾驶有关的问题时研究了与VQA模型相比人类的注意力模式,从而揭示了观察到的对象的差异。我们提出了一种整合过滤器的方法,以优化模型的注意机制,优先考虑相关对象并提高准确性 ...
0 0 0 2025/06/30 arXiv:2406.09203v1 15021163060
用户移动性建模在当代无线网络的分析和优化中起着至关重要的作用。典型的随机迁移率模型,例如 ...
0 0 0 2025/06/30 arXiv:2407.19765v1 hairushi
我们讨论了``无限的释义''(IMP)的``无限的释义'',这是一种越狱类,它利用模型的越来越多的能力来处理释义和编码通信以绕过其防御机制。 Imps的生存能力对并具有模型的能力,可以处理和绑定 Token 之间简单映射的语义,并且在实践中工作非常好,对商业最强大的LLM的用户构成了具体的威胁。我们展示了如何绕过最强大的开放式和封闭源LLM的保障措施,并生成明确违反其安全政策的内容 ...
0 0 0 2025/06/30 arXiv:2501.10800v2 wutianrui
我们提出了一个通用的卷积神经网络(Convnet)的通用组件,以提高性能,而无需任何推理时间成本。该块被命名为多元化的分支区块(DBB),通过结合不同尺度和复杂性的各种分支来丰富特征空间,包括卷积序列,多尺度卷积和平均合并,可以增强单个卷积的代表性。训练后,可以将DBB等效地转换为单个Conv层进行部署 ...
0 0 0 2025/06/30 arXiv:2103.13425v2 xiaoxia

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)