arxiv LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora

/documents/75486/

基本信息

文件基本信息

名称
LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora
描述
检索增强生成(RAG)广泛用于通过利用外部知识来减轻大型语言模型(LLM)的幻觉。传统的 RAG 系统虽然对于简单查询有效,但在处理信息分散的大规模、非结构化语料库时却遇到了困难。最近的进展结合了知识图来捕获关系结构,从而能够更全面地检索复杂的多跳推理任务。然而,现有的基于图的 RAG (GraphRAG) 方法依赖于不稳定且成本高昂的关系提取来构建图,通常会产生具有不正确或不一致关系的噪声图,从而降低检索质量。在本文中,我们重新审视现有 GraphRAG 系统的流程,并提出 LinearRAG(基于线性图的检索增强生成),这是一种有效的框架,可以实现可靠的图构建和精确的段落检索。具体来说,LinearRAG 仅使用轻量级实体提取和语义链接构建了一个无关系的层次图,称为 Tri-Graph,避免了不稳定的关系建模。这种新的图构建范式随语料库大小线性扩展,并且不会产生额外的 Token 消耗,从而为原始段落提供了经济且可靠的索引。对于检索,LinearRAG 采用两阶段策略:(i)通过局部语义桥接相关实体激活,然后(ii)通过全局重要性聚合进行段落检索。对四个数据集的大量实验表明,LinearRAG 的性能显着优于基线模型。我们的代码和数据集可在此 https URL 获取 ...