基本信息

文件基本信息

名称

LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora

首页

https://yiyibooks.cn/arxiv/2510.10114v4/index.html

原始地址

https://arxiv.org/pdf/2510.10114

描述

检索增强生成（RAG）广泛用于通过利用外部知识来减轻大型语言模型（LLM）的幻觉。传统的 RAG 系统虽然对于简单查询有效，但在处理信息分散的大规模、非结构化语料库时却遇到了困难。最近的进展结合了知识图来捕获关系结构，从而能够更全面地检索复杂的多跳推理任务。然而，现有的基于图的 RAG (GraphRAG) 方法依赖于不稳定且成本高昂的关系提取来构建图，通常会产生具有不正确或不一致关系的噪声图，从而降低检索质量。在本文中，我们重新审视现有 GraphRAG 系统的流程，并提出 LinearRAG（基于线性图的检索增强生成），这是一种有效的框架，可以实现可靠的图构建和精确的段落检索。具体来说，LinearRAG 仅使用轻量级实体提取和语义链接构建了一个无关系的层次图，称为 Tri-Graph，避免了不稳定的关系建模。这种新的图构建范式随语料库大小线性扩展，并且不会产生额外的 Token 消耗，从而为原始段落提供了经济且可靠的索引。对于检索，LinearRAG 采用两阶段策略：（i）通过局部语义桥接相关实体激活，然后（ii）通过全局重要性聚合进行段落检索。对四个数据集的大量实验表明，LinearRAG 的性能显着优于基线模型。我们的代码和数据集可在此 https URL 获取 ...