随着LLM的兴起,自2024年底以来已经出现了大量的模型上下文协议(MCP)服务。但是,MCP服务器的有效性和效率尚未得到很好的研究。为了研究这些问题,我们提出了一个称为McPbench的评估框架 ...
特定于领域的智能要求解决问题的专业知识和复杂的推理,对大型语言模型(LLM)提出了重大挑战,这些模型(LLMS)与知识幻觉和在约束参数预算下的推理能力不足。受Bloom在教育理论中的分类学的启发,我们提出了检索提示的推理建模(稀有),这是一种新颖的范式,它使知识存储无法储存推理优化。稀有将域知识的外部化为可检索的来源,并在训练过程中内化了特定于领域的推理模式 ...
大型语言模型经常遇到静态知识和幻觉的挑战,这削弱了它们的可靠性。检索增强生成 (RAG) 通过合并外部信息来缓解这些问题。然而,用户查询经常包含噪声和意图偏差,需要重写查询以提高检索到的文档的相关性 ...
机器学习研究前所未有的步伐带来了令人难以置信的进步,但也带来了严峻的挑战。目前,该领域缺乏强有力的理论基础,许多重要成就源于临时设计选择,这些设计选择在原则上很难证明其合理性,其有效性往往无法解释。研究债务不断增加,许多论文被发现无法重现 ...
大型语言模型(LLM)在各种任务中表现出了卓越的能力,但它们在复杂逻辑推理任务中的表现仍然不能令人满意。虽然一些提示方法,例如Chain-of-Thought,可以在一定程度上提高LLM的推理能力,但它们存在不忠实的问题,即得出的结论可能与生成的推理链不一致。为了解决这个问题,一些研究采用命题逻辑的方法来进一步增强 LLM 的逻辑推理能力 ...
检索增强生成(RAG)是一种将外部上下文信息与大型语言模型(LLM)集成以提高事实准确性和相关性的范式,已成为生成人工智能的关键领域。 RAG申请中使用的 LLM 需要忠实、完整地理解所提供的上下文和用户的问题,避免产生幻觉,处理无法回答、反事实或其他低质量和不相关的上下文,执行复杂的多跳推理并产生可靠的引文。在本文中,我们介绍了 SFR-RAG,这是一种小型 LLM ,经过指令调整,重点是基于上下文的生成和幻觉最小化 ...
LLM 是检索增强生成(RAG)系统的组成部分。虽然许多研究侧重于评估端到端 RAG 系统的质量,但缺乏了解 LLM 对于 RAG 任务的适当性的研究。因此,我们引入了一个新的指标——信任评分,它可以对 RAG 框架中 LLM 的可信度进行整体评估 ...
搜索增强生成(RAG)是一种用于在不改变底层模型参数的情况下使用上下文相关、时间关键或特定领域信息来增强大型语言模型(LLM)的技术。然而,构建能够从大量且有效地进行多样化的文档中合成信息的RAG系统仍然是一个重大挑战。我们为LLM引入了一种新颖的以数据为中心的RAG工作流程,将传统的检索和读取系统转变为更先进的准备和重整写作然后搜索然后读取框架,以实现更高领域专家级的理解知识库... ...
大型语言模型(LLM)为自适应智能代理的发展做出了巨大贡献,并被定位为实现通用人工智能(AGI)的重要途径。然而, LLM 很容易产生事实上不正确的信息,并且经常产生破坏其可靠性的“幻影”内容,这对其在现实场景中的部署构成了严峻的挑战。通过结合外部数据库和信息检索机制来增强 LLM 是一条有效的途径 ...
自2022年底ChatGPT上线以来,以ChatGPT为代表的生成对话模型迅速成为日常生活中必不可少的工具。随着用户期望的提高,增强生成对话模型解决复杂问题的能力已成为当前研究的重点。本文深入研究了 RAFT(检索增强微调)方法在提高生成对话模型性能方面的有效性 ...