arxiv A General Theoretical Paradigm to Understand Learning from Human Preferences

名称
A General Theoretical Paradigm to Understand Learning from Human Preferences
首页
https://yiyibooks.cn/arxiv/2310.12036v2/index.html
原始地址
https://arxiv.org/abs/2310.12036
描述
通过强化学习(RLHF)从人类偏好中学习的普遍使用依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分配外数据。最近,直接偏好优化(DPO)被提出作为一种绕行第二次近似并直接从收集的数据中学习策略的方法,从而获得迭代建模阶段... ...