通过可验证的奖励(RLVR)的增强学习最近在增强LLM的推理能力方面取得了显着成功,尤其是在数学和编程任务中。人们普遍认为,RLVR使LLM能够持续自我爆发,从而获得超过相应基本模型能力的新型推理能力。但是,在这项研究中,我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界,从而重新审视了这一假设 ...
近年来,张量网络成为解决大规模优化问题的强大工具。最受欢迎的张量网络之一是张量火车(TT)分解,它充当复杂的张量网络的构件。然而,由于其严格的顺序多连线产物在潜在核心上,TT分解高度取决于张量尺寸的排列,这导致难以找到最佳的TT表示 ...
使用最近提出的张量环分解的矩阵乘积状态(MPS)表示,在本文中,我们提出了一种张量完成算法,该算法是一种交替的最小化算法,可在MPS表示中交替交替。这种发展的部分原因是矩阵完成算法的成功,这些算法在(低级别)因素上交替出现。在本文中,我们提出了张量环完成算法的光谱初始化,并分析了所提出算法的计算复杂性 ...
专家(MOE)架构的混合物已经成为一种有希望的范式,用于扩展大型语言模型(LLMS),以稀疏的特定于任务专家的激活。尽管在推断过程中它们的计算效率,但MOE模型的总体参数足迹(例如 ...
知识追踪(KT)是追踪学生参与一系列学习活动的知识状态的一项任务。 KT的一个重要目的是个性化实践顺序,以帮助学生有效地学习知识概念。但是,现有的方法,例如贝叶斯知识追踪和深入的知识追踪每个预定义概念的模型知识状态,或者无法确切地指出学生擅长或不熟悉哪种概念 ...
使用用户描述或角色促进的语言模型正在用于预测用户的偏好和意见。但是,现有的构建角色的方法主要依赖用户的人口统计属性和/或以前的判断,而不取决于用户判断背后的任何基本推理。我们介绍了PB&J(行为和判断心理学),该框架通过将潜在的理由纳入了为什么用户可以做出一定的判断来改善LM角色 ...
大型语言模型(LLMS)的最新进展表明,利用过程奖励模型(PRM)作为验证者来增强LLM的性能是很有希望的。但是,当前的PRM面临三个关键挑战:(1)有限的过程监督和泛化功能,(2)依赖标量值预测而不利用LLM的生成能力,以及(3)无法扩展PRMS的测试时间计算。在这项工作中,我们介绍了GenPrm,这是一种生成过程奖励模型,在为每个推理步骤提供判断之前,在代码验证之前执行明确的经过三链链(COT ...
本文研究了图形用户界面(GUI)环境中多模式大语言模型(MLLM)代理的忠诚,旨在解决是否可以通过环境环境分散多模式GUI代理的研究问题。提出了一个一般设置,用户和代理都是良性的,而环境虽然不是恶意,但包含无关的内容。使用我们的模拟数据集评估了广泛的MLLM作为GUI剂,遵循三种具有不同感知水平的工作模式 ...