arxiv Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

/documents/73374/

基本信息

文件基本信息

名称
Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training
描述
标准奖励模型通常预测标量分数,但无法捕捉不可验证领域(例如创意写作或开放式指令遵循)中响应质量的多方面性质。为了解决这个限制,我们提出了 Rubric-ARM,这是一个使用来自偏好反馈的强化学习来联合优化 rubric 生成器和法官的框架。与依赖静态评分标准或不相交训练管道的现有方法不同,我们的方法将评分标准生成视为学习的潜在动作,以最大限度地提高判断准确性。我们引入了一种交替优化策略来减轻同时更新的非平稳性,并提供理论分析来演示该计划如何减少训练期间的梯度方差。大量实验表明,Rubric-ARM 在多个基准测试中实现了最先进的性能,并显着改善了离线和在线强化学习设置中的下游策略一致性 ...