检索增强的生成(RAG)系统依靠检索模型来识别相关的上下文和回答生成模型以利用这些上下文。 However, retrievers exhibit imperfect recall and precision, limiting downstream performance.我们介绍了RAG-RL,这是一种答案生成模型,不仅培训了为了产生答案,还可以识别并引用相关信息,从较大的检索到的上下文中,从 ...
0 0 0 2025/07/01 arXiv:2503.12759v2 Ian233
近年来,很少有射击对象检测(FSOD)广泛引起人们的关注,并取得了重大进展,因为它可以使用非常有限的注释数据构建具有良好概括能力的模型。基于微调的范式目前正主导该领域,在该领域中,检测器最初是在具有足够样品的基类上进行预训练的,然后对具有很少样本的新颖的探测器进行了微调,但是新颖类的标记样品的稀缺性极大地干扰了它们的数据分布,从而妨碍了性能。为了解决这个问题,我们为FSOD提出了一个新框架,即基于 ...
0 0 2 2025/07/01 arXiv:2408.05674v1 IzayoiSaky
视频生成模型可以视为世界模拟器,因为它们能够捕获现实世界中固有的动态,连续变化的能力。这些模型在视觉,时间,空间和因果关系上整合了高维信息,从而可以预测各种状态的受试者。自然而有价值的研究方向是探索高维空间中训练有素的视频生成模型是否可以有效地支持较低维度的任务,例如可控的图像生成 ...
0 0 0 2025/07/01 arXiv:2505.23325v1 wuyangecit
手势可以实现非语言人类机器人的交流,尤其是在敏捷生产等嘈杂的环境中。传统的基于深度学习的手势识别依赖于特定于任务的架构,使用图像,视频或骨骼姿势估计作为输入。同时,具有强大概括能力的视觉基础模型(VFM)和视觉语言模型(VLM)通过替换专用特定于任务的模块来降低系统复杂性的潜力 ...
0 0 0 2025/07/01 arXiv:2506.20795v1 odenkkk
不同的基本语言模型家族,例如骆驼和QWEN,在加强学习后培训期间表现出不同的行为(RL),尤其是在推理密集型任务上。是什么使基本语言模型适合加固学习?深入了解这个问题对于开发下一代的RL尺度基础模型至关重要。在这项工作中,我们研究了中期训练策略如何塑造RL动态,重点是两个代表性的模型家族:Qwen和Llama ...
0 0 0 2025/07/01 arXiv:2506.20512v1 algcd
DeNoising扩散模型在以自然语言描述为条件的人类运动合成中表现出了巨大的希望。然而,尽管对于弥合孤立的人类运动及其周围环境之间的差距至关重要,但整合空间限制(例如预定义的运动轨迹和障碍)仍然是一个挑战。为了解决这个问题,我们提出了指导运动扩散(GMD),该方法将空间约束纳入运动生成过程 ...
0 0 0 2025/07/01 arXiv:2305.12577v3 qinhui_cici
模型检查点是关键的深度学习(DL)工件,可实现训练和下游应用(例如推理)的容错。但是,为持续存储编写检查站,以及DL培训的其他I/O方面,大多通过以计算为中心的优化工作来忽略了快速增长的模型和数据集的速度。为了解决这种不平衡,我们建议快速主义者在DL培训中加快检查点的创建 ...
0 0 0 2025/07/01 arXiv:2406.13768v1 lyer
本文提供了与量化大规模神经网络模型相关的原理,挑战和方法的全面概述。随着神经网络已发展为更大,更复杂的架构以解决越来越复杂的任务,计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响,突出了性能益处以及计算挑战和环境考虑 ...
0 0 0 2025/07/01 arXiv:2409.11650v1 felixslu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)