检索增强生成(RAG)是一种很有前途的方法,可以减轻大语言模型(LLM)的幻觉。然而,现有的研究缺乏对检索增强生成对不同大型语言模型的影响的严格评估,这使得识别不同法学硕士的 RAG 能力的潜在瓶颈变得具有挑战性。在本文中,我们系统地研究了检索增强生成对大型语言模型的影响 ...
0 0 0 2024/02/28 arXiv:2309.01431v2 2489228482
我们提出了一种可扩展的图结构数据半监督学习方法,该方法基于直接在图上运行的卷积神经网络的有效变体。我们通过谱图卷积的局部一阶近似来选择我们的卷积架构。我们的模型在图边的数量上线性缩放,并学习对局部图结构和节点特征进行编码的隐藏层表示 ...
0 1 0 2024/02/28 arXiv:1609.02907v4 ypeng
在这项工作中,我们引入了使用强化学习(RL)训练的图指针网络(GPN)来解决旅行商问题(TSP)。 GPN 基于指针网络构建,在输入上引入图形嵌入层,捕获节点之间的关系。此外,为了近似解决带时间窗的 TSP 等约束组合优化问题,我们使用 RL 训练分层 GPN(HGPN),它学习分层策略以在约束下找到最佳城市排列 ...
0 1 0 2024/02/28 arXiv:1911.04936v1 ypeng
预训练数据域(例如维基百科、书籍、网络文本)的混合比例极大地影响语言模型(LM)的性能 ...
0 0 0 2024/02/27 arXiv:2305.10429v4 Remixa
深度神经网络 (DNN) 是强大的模型,在困难的学习任务上取得了优异的性能。尽管只要有大型标记训练集可用,DNN 就能很好地工作,但它们不能用于将序列映射到序列。在本文中,我们提出了一种通用的端到端序列学习方法,该方法对序列结构做出最少的假设 ...
0 0 2 2024/02/27 arXiv:1409.3215v3 arxiv
通过强化学习(RLHF)从人类偏好中学习的普遍部署依赖于两个重要的近似:第一个假设可以用逐点奖励代替成对偏好。第二个假设基于这些逐点奖励训练的奖励模型可以从收集的数据推广到策略采样的分布外数据。最近,直接偏好优化(DPO)被提出作为一种绕过第二次近似并直接从收集的数据中学习策略的方法,而无需奖励建模阶段 ...
0 0 59 2024/02/27 arXiv:2310.12036v2 arxiv
带噪声标签的联合学习(F-LNL)旨在通过聚合使用本地噪声或干净样本训练的多个客户端模型,通过协作分布式学习来寻求最佳服务器模型。在联邦学习框架的基础上,最近的进展主要采用标签噪声过滤来将每个客户端上的干净样本与噪声样本分离,从而减轻标签噪声的负面影响。然而,这些现有方法并没有通过利用所有客户端的知识来学习噪声滤波器,导致噪声过滤性能次优且较差,从而损害训练稳定性 ...
0 0 15 2024/02/26 arXiv:2312.12263v3 ljx
大型语言模型(LLM)为智能代理开辟了新的可能性,赋予它们类似人类的思维和认知能力。在这项工作中,我们深入研究了大型语言模型 (LLM) 在自动驾驶 (AD) 中的潜力。我们介绍 DriveMLM,这是一个基于 LLM 的 AD 框架,可以在现实模拟器中执行闭环自动驾驶 ...
0 0 6 2024/02/26 arXiv:2312.09245v1 zhengzheng1