视觉文档检索(VDR)是一个新兴的研究领域,重点是直接编码和检索文档图像,绕开了对光学角色识别(OCR)的依赖,以进行文档搜索。 Colpali引入了最近的VDR,该进步通过晚期相互作用机制显着提高了检索有效性。 Colpali的方法表明,对现有基线的现有基线的绩效取得了可观的提高,这些基线不会在既定的基准上使用较晚的互动 ...
密集的检索在嵌入空间中进行了文本检索,并且与稀疏检索相比显示出许多优势。现有的密集检索器通过对比度培训优化查询和文档的表示形式,并将其映射到嵌入空间。通过对齐匹配的查询文件对并将负面文档从查询中推开,可以优化嵌入空间 ...
尽管看似性能的Web代理在任务完成基准测试中,但大多数现有方法还是基于预设的代理来评估代理:Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下,我们的工作着重于网络导航以进行信息汇总,其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合:(i)直接API驱动的访问依赖于网络的文本视图,利用外部工具(例如Google Search API)来浏览Web和Scraper来提取网站内容 ...
我们建议知识意识预处理(KAP),这是一个针对传统中国非叙事文档量身定制的两阶段预处理框架,旨在提高混合检索系统的检索准确性。混合检索,它整合了稀疏检索(例如 ...
我们旨在开发一个检索型的一代(RAG)框架,该框架回答了以混合方式(例如,图表,表格)和各种格式(e ...
文档问答(DOCQA)是一项非常普遍的任务。使用大语言模型(LLM)或大型视觉语言模型(LVLM)和检索增强生成(RAG)的现有方法通常优先考虑单个模式的信息,从而无法有效整合文本和视觉提示。这些方法在复杂的多模式推理方面遇到了困难,从而限制了它们在实际文档上的性能 ...
检索增强生成 (RAG) 通过集成外部知识来增强大型语言模型 (LLM),以减少幻觉并合并最新信息,而无需重新训练。作为 RAG 的重要组成部分,外部知识库通常是通过使用光学字符识别 (OCR) 从非结构化 PDF 文档中提取结构化数据来构建的。然而,鉴于 OCR 的不完美预测以及结构化数据固有的非均匀表示,知识库不可避免地包含各种 OCR 噪声 ...
现有的跨模式检索方法通常依赖于大规模视觉语言对数据。这使得有效地开发出资源不足的感兴趣语言的跨模式检索模型具有挑战性。因此,旨在使视觉和低资源语言(目标语言)保持一致的跨语言跨模式检索(CCR),而无需使用任何人类标记的目标语言数据,但已引起了人们的关注越来越多 ...
跨语言跨模式检索(CCR)旨在根据非英语查询来检索视觉相关的内容,而无需在训练过程中依靠人类标记的跨模式数据对。一种流行的方法涉及利用机器翻译(MT)创建伪并行数据对,并在视觉和非英语文本数据之间建立对应关系。但是,由于视觉和文本之间存在显着的语义差距,以及由预训练的编码器和数据噪声引起的非英语表示的质量较低,因此对它们的表示形式构成了挑战 ...
多模式的大型语言模型(MLLM)最近在文本丰富的图像理解中显示出巨大的进步,但他们仍然在复杂的,多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制,而将所有页面直接呈现给MLLMS会导致效率低下,尤其是冗长的效率。在这项工作中,我们提出了一个名为** s ** elf的新颖框架 - ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能(sv-rag),它可以拓宽任何MLLM的视野以支持长期记录的理解 ...