基本信息

文件基本信息

名称

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

首页

https://yiyibooks.cn/arxiv/2602.01511v2/index.html

原始地址

https://arxiv.org/pdf/2602.01511

描述

标准奖励模型通常预测标量分数，但无法捕捉不可验证领域（例如创意写作或开放式指令遵循）中响应质量的多方面性质。为了解决这个限制，我们提出了 Rubric-ARM，这是一个使用来自偏好反馈的强化学习来联合优化 rubric 生成器和法官的框架。与依赖静态评分标准或不相交训练管道的现有方法不同，我们的方法将评分标准生成视为学习的潜在动作，以最大限度地提高判断准确性。我们引入了一种交替优化策略来减轻同时更新的非平稳性，并提供理论分析来演示该计划如何减少训练期间的梯度方差。大量实验表明，Rubric-ARM 在多个基准测试中实现了最先进的性能，并显着改善了离线和在线强化学习设置中的下游策略一致性 ...