人类通过视觉、嗅觉、听觉、触觉等多种感官来感知世界。同样,多模态大语言模型 (MLLM) 通过集成和处理来自文本、视觉、音频、视频和 3D 环境等多种模态的数据,增强了传统大语言模型的功能。数据在这些模型的开发和完善中发挥着关键作用 ...
预训练数据域(例如维基百科、书籍、网络文本)的混合比例极大地影响语言模型(LM)的性能 ...
直接偏好优化 (DPO) 可以有效显着提高大型语言模型 (LLM) 在推理、摘要和对齐等下游任务上的性能。使用成对的首选和不首选数据,DPO 对选择一个响应而不是另一个响应的相对概率进行建模。在这项工作中,我们首先从理论上证明,只要首选类别和不首选类别之间的相对概率增加,标准 DPO 损失就可以导致模型的首选示例可能性减少 ...