尽管Colpali/colqwen2在可视化文档检索(VDR)中的性能很强,但它将每个页面编码为多个补丁级嵌入式,并导致过多的内存使用情况。这项实证研究研究了以最小的性能降解减少每页粘合嵌入的方法。我们评估了两种 Token 还原策略: Token 修剪和 Token 合并 ...
最近的多模式检索方法通过利用预训练策略进行视觉文本对齐,具有具有多模式能力的基于文本的检索器。他们经常将两种方式直接融合在一起,以便在对齐过程中了解多模式查询。但是,现有方法通常由于文本主导问题而忽略关键的视觉信息,这过于取决于文本驱动的信号 ...
我们提出了SEED1.5-VL,这是一种视觉基础模型,旨在提高通用多模式的理解和推理。种子1 ...
Rerankers通过完善初始检索文档的排名,在多模式检索仪(RAG)中发挥着关键作用。 Rerankers通常是使用硬采矿进行培训的,其目标是为每个排名较高但实际上无关紧要的查询选择页面。但是,此选择过程通常是被动的,并且仅限于猎犬在可用语料库中可以找到的,从而导致了几种固有的局限性 ...
通过将外部知识整合到生成模型中,在提高响应准确性和相关性方面表现出了出色的性能,在提高响应准确性和相关性方面表现出色。但是,现有的抹布方法主要集中于提供仅文本的答案,即使在多模式检索的生成场景中也是如此。在这项工作中,我们介绍了多模式检索仪的多模式生成(MRAMG)任务,该任务旨在生成结合文本和图像的答案,并完全利用语料库中的多模式数据 ...
信息检索方法通常依赖于在 MSMARCO 等大型通用领域数据集上训练的单个嵌入模型。虽然这种方法可以产生具有合理整体性能的检索器,但在特定领域数据上训练的模型通常会在各自的领域内产生更好的结果。虽然信息检索领域的先前工作已经通过多任务训练解决了这个问题,但组合多个特定领域专家检索器的主题仍然未被探索,尽管它在语言模型生成中很受欢迎 ...
视觉文档检索(VDR)是一个新兴的研究领域,重点是直接编码和检索文档图像,绕开了对光学角色识别(OCR)的依赖,以进行文档搜索。 Colpali引入了最近的VDR,该进步通过晚期相互作用机制显着提高了检索有效性。 Colpali的方法表明,对现有基线的现有基线的绩效取得了可观的提高,这些基线不会在既定的基准上使用较晚的互动 ...
密集的检索在嵌入空间中进行了文本检索,并且与稀疏检索相比显示出许多优势。现有的密集检索器通过对比度培训优化查询和文档的表示形式,并将其映射到嵌入空间。通过对齐匹配的查询文件对并将负面文档从查询中推开,可以优化嵌入空间 ...
尽管看似性能的Web代理在任务完成基准测试中,但大多数现有方法还是基于预设的代理来评估代理:Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下,我们的工作着重于网络导航以进行信息汇总,其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合:(i)直接API驱动的访问依赖于网络的文本视图,利用外部工具(例如Google Search API)来浏览Web和Scraper来提取网站内容 ...
我们建议知识意识预处理(KAP),这是一个针对传统中国非叙事文档量身定制的两阶段预处理框架,旨在提高混合检索系统的检索准确性。混合检索,它整合了稀疏检索(例如 ...