arxiv Discovering Preference Optimization Algorithms with and for Large Language Models

名称
Discovering Preference Optimization Algorithms with and for Large Language Models
首页
https://yiyibooks.cn/arxiv/2406.08414v1/index.html
原始地址
https://arxiv.org/abs/2406.08414
描述
离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...