通过强化学习(RLHF)从人类偏好中学习的普遍部署依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分布外数据。最近,直接偏好优化(DPO)被提出作为一种绕过第二次近似并直接从收集的数据中学习策略的方法,而无需奖励建模阶段 ...
0 0 57 2024/02/27 arXiv:2310.12036v2 arxiv
带噪声标签的联合学习(F-LNL)旨在通过聚合使用本地噪声或干净样本训练的多个客户端模型,通过协作分布式学习来寻求最佳服务器模型。在联邦学习框架的基础上,最近的进展主要采用标签噪声过滤来将每个客户端上的干净样本与噪声样本分离,从而减轻标签噪声的负面影响。然而,这些现有方法并没有通过利用所有客户端的知识来学习噪声滤波器,导致噪声过滤性能次优且较差,从而损害训练稳定性 ...
0 0 15 2024/02/26 arXiv:2312.12263v3 ljx
大型语言模型(LLM)为智能代理开辟了新的可能性,赋予它们类似人类的思维和认知能力。在这项工作中,我们深入研究了大型语言模型 (LLM) 在自动驾驶 (AD) 中的潜力。我们介绍 DriveMLM,这是一个基于 LLM 的 AD 框架,可以在现实模拟器中执行闭环自动驾驶 ...
0 0 6 2024/02/26 arXiv:2312.09245v1 zhengzheng1
直接偏好优化 (DPO) 可以有效显着提高大型语言模型 (LLM) 在推理、摘要和对齐等下游任务上的性能。使用成对的首选和不首选数据,DPO 对选择一个响应而不是另一个响应的相对概率进行建模。在这项工作中,我们首先从理论上证明,只要首选类别和不首选类别之间的相对概率增加,标准 DPO 损失就可以导致模型的首选示例可能性减少 ...
0 0 6 2024/02/26 arXiv:2402.13228v1 Remixa
Segment Anything Model (SAM) 已成为众多视觉应用的强大工具。在大量高质量的 SA-1B 数据集上训练出的超大型 Transformer 模型是推动零样本传输和高通用性取得惊人性能的关键组件。SAM 模型虽然有益,但其巨大的计算成本限制了它在更广泛的实际应用中的应用。...
0 0 0 2024/02/21 arXiv:2312.00863v1 zy
大语言模型(LLM)在一般情况下具有先进的理解和生成能力,因此在对话系统中越来越普遍。然而,它们在面向任务的对话(TOD)中的效果仍不尽如人意,TOD 不仅要求生成响应,还要求在特定任务和领域中进行有效的对话状态跟踪(DST)。在这项工作中,我们提出了一种新方法 FnCTOD,通过函数调用 LLM 来解决 DST 问题。...
0 0 35 2024/02/21 arXiv:2402.10466v1 arxiv
我们的目标是建立一个符合用户意图的较小语言模型。以往的研究表明,在较大的模型上应用精馏监督微调(dSFT)能显著提高任务的准确性。...
0 0 13 2024/02/21 arXiv:2310.16944v1 arxiv
协同感知旨在通过促进多个代理之间的数据交换,减少单代理感知的局限性,例如遮挡。然而,目前的大多数研究都考虑了所有代理都使用同一传感器和感知模型的同质场景。在现实中,异构代理类型可能会不断涌现,在与现有代理协作时,不可避免地会面临领域差距。...
0 0 0 2024/02/20 arXiv:2401.13964v2 ljx