基于扩散的语言模型通过实现并行和可控的生成提供了自动回归(AR)模型的引人注目的替代方案。在这个模型家族中,掩盖的​​扩散模型(MDMS)的性能最强,但在困惑中仍然表现不佳,并且缺乏关键的推理时间效率功能,尤其是KV缓存。在这项工作中,我们介绍了ESO-LMS,这是一个融合AR和MDM范式的新型模型家族,在克服各自的局限性的同时,可以在其困惑之间平稳插值 ...
0 0 0 2025/07/11 arXiv:2506.01928v1 zhuangxialie
文本到图像的人重新识别(REID)旨在根据文本描述检索有关人员的图像。该任务的主要挑战是手动注释大规模数据库的高成本,这影响了REID模型的概括能力。最近的作品通过利用多模式大语言模型(MLLM)自动描述行人图像来解决此问题 ...
0 0 0 2025/07/11 arXiv:2503.09962v1 13843225286
一个基于检索的提示生成(RAG)的问题避开(QA)系统通过根据用户查询检索相关文档来增强大语言模型的知识。用户查询和文档短语之间的差异通常需要查询重写。但是,在专门的领域中,重写器模型可能由于特定于领域的知识而挣扎 ...
0 0 0 2025/07/11 arXiv:2507.00477v1 kanli
在强化学习(RL)中,基于价值的算法学会将每个观察结果与可能从中获得的状态和奖励联系起来。我们观察到,许多自我监督的图像预训练方法与这种表述具有相似性:将图像的作物与附近观点相关联的学习特征,例如 ...
0 0 0 2025/07/11 arXiv:2506.11967v1 uu2222
自动解析扫描文档到结构丰富的机器可读格式中仍然是文档AI中的关键瓶颈,因为传统的多阶段管道遭受了错误传播和对各种布局的适应性有限。我们介绍了Layoutrl,这是一种端到端的增强学习框架,该框架通过优化标准化编辑距离,段落计数准确性和阅读顺序保存的综合奖励来训练模型,以明确地进行布局意识。利用我们新发布的数据集Infinity-Doc-55k,该数据集结合了55K高保真扫描文档解析数据与专家滤波的 ...
0 0 0 2025/07/11 arXiv:2506.03197v1 spw
基于文本的人搜索旨在使用自然语言描述在相机网络中检索特定的个人。但是,当前的基准测试经常表现出对步行或站立等共同行动的偏见,从而忽略了在现实世界中识别异常行为的关键需求。为了满足此类要求,我们提出了一项新任务,基于文本的人的异常搜索,通过文字同时找到常规活动或异常活动的行人 ...
0 0 0 2025/07/11 arXiv:2411.17776v2 13843225286
由于其广泛的应用要求,空中对象检测一直是一个热门话题。但是,大多数现有的方法只能处理预定义的类别,这限制了其对现实世界中公开方案的适用性。在本文中,我们通过利用图像和文本之间的关系扩展了空中对象检测到打开场景,并提出了OVA-DRET,这是一种高效的空中图像开放式视频检测器 ...
0 0 0 2025/07/11 arXiv:2408.12246v3 per
最近的一些作品认为,大型语言模型(LLMS)可以通过改善网络威胁智能(CTI)任务的自动化来驯服网络安全领域的数据洪水。这项工作提出了一种评估方法,除了允许在使用零射击学习,几乎没有射击学习和微调的CTI任务上测试LLM之外,还允许量化其一致性和信心水平。我们使用三个最先进的LLM和350个威胁情报报告的数据集进行了实验,并提供了依靠LLMS依靠CTI的潜在安全风险的新证据 ...
0 0 0 2025/07/11 arXiv:2503.23175v1 zhououououou

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)