- 名称
- Discovering Preference Optimization Algorithms with and for Large Language Models
- 描述
离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...
离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...