训练后在精炼和调整大型语言模型以满足特定任务和人类偏好方面起着至关重要的作用。尽管训练后技术的最新进步,例如小组相对政策优化(GRPO),但利用相对奖励评分来提高采样以实现卓越的表现,但这些方法通常会遭受训练不稳定的影响,从而限制了其实际采用。为了应对这一挑战,我们提出了小组差异策略优化(GVPO) ...
0 0 1 2025/06/18 arXiv:2504.19599v2 wangximeng
视觉语言模型 (VLM) 中现有的图像文本模态对齐以自回归方式平等地对待每个文本标记。尽管简单有效,但这种方法会过度强调与输入图像相关性较低甚至矛盾的文本标记,从而导致次优的跨模式对齐。在本文中,我们主张根据每个文本标记的视觉相关性为其分配不同的贡献 ...
0 0 0 2025/06/18 arXiv:2405.17871v2 13366395289
近年来,大型语言模型(LLMS)的广泛采用引起了人们对在军事领域中应用的潜力的兴趣。但是,由于域特异性词汇和行话的流行,当前一代的LLMS在陆军用例中表现出了次优的性能。为了完全利用LLM In构想,许多组织已转向微调,以规避从头开始培训新LLMS所涉及的艰巨的成本 ...
0 0 0 2025/06/18 arXiv:2410.20297v1 xoxoal
编程语言可以通过利用预先训练的模型来互相受益,以用于软件工程任务,例如代码摘要和方法名称预测。虽然已经探索了代码语言模型(代码LMS)的全面微调用于多语言知识转移,但针对此目的的参数有效微调(PEFT)的研究受到限制。 PEFT体系结构AdapterFusion旨在通过利用多种语言的信息来增强任务性能,但主要关注目标语言 ...
0 0 0 2025/06/18 arXiv:2307.07854v3 muzhi
我们通过依次运行的梯度下降(GD)来研究多个线性分类任务的持续学习,每次任务的固定预算。当所有任务共同可分离并以环状/随机顺序显示,我们显示了训练有素的线性分类器与关节(离线)最大密码解决方案的方向收敛。这是令人惊讶的,因为单个任务上的GD训练对任务隐含偏向单个的最大额度解决方案,并且关节最大额度解决方案的方向可能与这些单独的解决方案有很大不同 ...
0 0 0 2025/06/18 arXiv:2504.12712v2 19396386025
许多甲骨文 (OBS) 起源于大约 3000 年前的中国商代,是语言史史上的基石,早于已建立的书写系统。 尽管发现了数千个铭文,但大量 OBS 未破译,给了这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为OBS解密提供了一个新的前沿,挑战了严重依赖大规模文本语言资料库的传统NLP方法,这是历史语言无法提供的奢侈。  ...
0 0 0 2025/06/18 arXiv:2406.00684v3 liuzhanbo-intern
人形机器人有望通过模仿人类行为来获得各种技能。但是,即使有微妙的奖励和课程设计,现有算法只能跟踪平滑,低速的人类动作。本文提出了一个基于物理的人形控制框架,旨在掌握高度动态的人类行为,例如功夫和通过多步运动处理和自适应运动跟踪而跳舞 ...
0 0 1 2025/06/18 arXiv:2506.12851v1 晚餐杀手
近年来,视觉 Transformer (VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块的序列并利用自我注意机制。但是,它们的高计算复杂性和内存要求在资源受限的边缘设备上部署构成重大挑战 ...
0 0 0 2025/06/18 arXiv:2503.02891v3 dz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)