- 名称
- A General Theoretical Paradigm to Understand Learning from Human Preferences
- 描述
通过强化学习(RLHF)从人类偏好中学习的普遍使用依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分配外数据。最近,直接偏好优化(DPO)被提出作为一种绕行第二次近似并直接从收集的数据中学习策略的方法,从而获得迭代建模阶段... ...
通过强化学习(RLHF)从人类偏好中学习的普遍使用依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分配外数据。最近,直接偏好优化(DPO)被提出作为一种绕行第二次近似并直接从收集的数据中学习策略的方法,从而获得迭代建模阶段... ...