基本信息 - Discovering Preference Optimization Algorithms with and for Large Language Models

arxiv Discovering Preference Optimization Algorithms with and for Large Language Models

阅读

Star 0

名称: Discovering Preference Optimization Algorithms with and for Large Language Models

首页: https://yiyibooks.cn/arxiv/2406.08414v1/index.html

原始地址: https://arxiv.org/abs/2406.08414

描述

离线偏好优化是增强和控制大语言模型（LLM）输出质量的关键方法。通常，偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解，但它们本质上受到人类创造力的限制，因此可能的损失函数的巨大搜索空间仍在探索中 ...

文件上传进度

0%

上传成功 0 个文件