一译 —— 文档和论文翻译、对照阅读、讨论和社区

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

通过可验证的奖励（RLVR）的增强学习最近在增强LLM的推理能力方面取得了显着成功，尤其是在数学和编程任务中。人们普遍认为，RLVR使LLM能够持续自我爆发，从而获得超过相应基本模型能力的新型推理能力。但是，在这项研究中，我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界，从而重新审视了这一假设 ...

0 0 0 2025/06/04 arXiv:2504.13837v2 leec

Tensor Ring Decomposition

近年来，张量网络成为解决大规模优化问题的强大工具。最受欢迎的张量网络之一是张量火车（TT）分解，它充当复杂的张量网络的构件。然而，由于其严格的顺序多连线产物在潜在核心上，TT分解高度取决于张量尺寸的排列，这导致难以找到最佳的TT表示 ...

0 0 0 2025/06/04 arXiv:1606.05535v1 Hahhhnxsm

Efficient Low Rank Tensor Ring Completion

使用最近提出的张量环分解的矩阵乘积状态（MPS）表示，在本文中，我们提出了一种张量完成算法，该算法是一种交替的最小化算法，可在MPS表示中交替交替。这种发展的部分原因是矩阵完成算法的成功，这些算法在（低级别）因素上交替出现。在本文中，我们提出了张量环完成算法的光谱初始化，并分析了所提出算法的计算复杂性 ...

0 0 0 2025/06/04 arXiv:1707.08184v1 Hahhhnxsm

Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

专家（MOE）架构的混合物已经成为一种有希望的范式，用于扩展大型语言模型（LLMS），以稀疏的特定于任务专家的激活。尽管在推断过程中它们的计算效率，但MOE模型的总体参数足迹（例如 ...

0 0 0 2025/06/04 arXiv:2504.07807v1 18826075146

Dynamic Key-Value Memory Networks for Knowledge Tracing

知识追踪（KT）是追踪学生参与一系列学习活动的知识状态的一项任务。 KT的一个重要目的是个性化实践顺序，以帮助学生有效地学习知识概念。但是，现有的方法，例如贝叶斯知识追踪和深入的知识追踪每个预定义概念的模型知识状态，或者无法确切地指出学生擅长或不熟悉哪种概念 ...

0 0 0 2025/06/04 arXiv:1611.08108v2 Shylie

Improving Language Model Personas via Rationalization with Psychological Scaffolds

使用用户描述或角色促进的语言模型正在用于预测用户的偏好和意见。但是，现有的构建角色的方法主要依赖用户的人口统计属性和/或以前的判断，而不取决于用户判断背后的任何基本推理。我们介绍了PB＆J（行为和判断心理学），该框架通过将潜在的理由纳入了为什么用户可以做出一定的判断来改善LM角色 ...

0 0 0 2025/06/04 arXiv:2504.17993v2 lanheshui

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

大型语言模型（LLMS）的最新进展表明，利用过程奖励模型（PRM）作为验证者来增强LLM的性能是很有希望的。但是，当前的PRM面临三个关键挑战：（1）有限的过程监督和泛化功能，（2）依赖标量值预测而不利用LLM的生成能力，以及（3）无法扩展PRMS的测试时间计算。在这项工作中，我们介绍了GenPrm，这是一种生成过程奖励模型，在为每个推理步骤提供判断之前，在代码验证之前执行明确的经过三链链（COT ...

0 0 0 2025/06/04 arXiv:2504.00891v2 liukai

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

本文研究了图形用户界面（GUI）环境中多模式大语言模型（MLLM）代理的忠诚，旨在解决是否可以通过环境环境分散多模式GUI代理的研究问题。提出了一个一般设置，用户和代理都是良性的，而环境虽然不是恶意，但包含无关的内容。使用我们的模拟数据集评估了广泛的MLLM作为GUI剂，遵循三种具有不同感知水平的工作模式 ...

0 0 0 2025/06/04 arXiv:2408.02544v1 hhhhh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）