大型语言模型(LLMS)在编程和数学推理任务中表现出强大的能力,但受到有限的高质量培训数据的约束。可以利用合成数据来增强微调结果,但是几个因素会影响该过程,包括模型大小,合成数据量,修剪策略和微调回合的数量。我们探索这些轴并研究哪些条件可以自我改善 ...
0 0 0 2025/05/06 arXiv:2504.18116v1 zhuangxialie
大型语言模型(LLMS)通常通过检索语义相似的信息或通过诸如经过思考链(链链)的结构提示来提高推理能力来提高性能。尽管两种策略都被认为是至关重要的,但尚不清楚哪些策略对模型性能产生更大的影响,或者两者的组合是否有必要。本文通过提出一个利用因果关系的知识图(kg)的随机漫步推理方法来回答这个问题 ...
0 0 0 2025/05/06 arXiv:2410.11588v1 15942315998
随着语言模型(LM)输出变得越来越自然,评估其质量的越来越困难。同时,通过缩放测试时间计算增加LMS的“思考”时间已证明是一种有效的技术,可以解决数学和代码等领域中的具有挑战性的问题。这提出了一个自然的问题:通过花费更多的测试时间计算,可以提高LM的评估能力吗?为了回答这一点,我们调查了使用推理模型LMS本地产生长期思考的推理 - 作为评估者 ...
0 0 0 2025/05/06 arXiv:2503.19877v1 leec
图神经网络(GNN)已成为学习(静态)图形结构数据的领先范式。但是,由于图和节点/边缘属性会随着时间的流逝而变化,因此许多实际系统本质上是动态的。近年来,基于GNN的时间图模型已成为扩展GNN能力的有希望的研究领域 ...
0 0 0 2025/05/06 arXiv:2302.01018v4 wozengyi
在这项工作中,我们研究了模型培训期间明确优化推理时间算法性能的优点。我们展示了推理时间性能的优化如何提高整体模型功效。我们认为使用$ K $样本的通用推理时间目标,重点关注Pass@$ K $,多数投票作为两个主要应用程序 ...
0 0 0 2025/05/06 arXiv:2503.19595v1 leec
基于RL的语言模型的培训几乎是使用PPO等派利方法完全完成的。这些方法无法从诸如培训,早期运行,人类专家或其他政策或解码和探索方法的任意序列中学习。这导致了严重的样本效率低下和勘探困难,以及政策响应多样性的潜在丧失 ...
0 0 0 2025/05/06 arXiv:2503.05453v1 leec
我们提出了XKD,这是一个新颖的自我监管框架,可以从未标记的视频中学习有意义的表示。 XKD经过两个伪目标训练。首先,执行蒙版数据重建以从音频和视觉流学习特定于模式的表示 ...
0 0 0 2025/05/06 arXiv:2211.13929v5 13080420360
大型语言模型(LLM)推论一次使用自回旋的方式来产生一个 Token ,与早期的机器学习(ML)模型(例如,仅编码器 Transformer 和卷积神经网络)相比,其操作强度明显较低。同时,LLMS具有较大的参数尺寸,并使用键值缓存来存储上下文信息。现代LLMS支持上下文窗口,最多100万个 Token 来生成多功能文本,音频和视频内容 ...
0 0 0 2025/05/06 arXiv:2502.07578v3 jane88

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)