arthur的文档

arthur

个性签名 ...

KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents

我们建议知识意识预处理（KAP），这是一个针对传统中国非叙事文档量身定制的两阶段预处理框架，旨在提高混合检索系统的检索准确性。混合检索，它整合了稀疏检索（例如 ...

0 0 0 0 2025/04/27 arXiv:2503.08452v1 arthur

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

我们旨在开发一个检索型的一代（RAG）框架，该框架回答了以混合方式（例如，图表，表格）和各种格式（e ...

0 0 0 0 2025/04/21 arXiv:2504.09795v1 arthur

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

文档问答（DOCQA）是一项非常普遍的任务。使用大语言模型（LLM）或大型视觉语言模型（LVLM）和检索增强生成（RAG）的现有方法通常优先考虑单个模式的信息，从而无法有效整合文本和视觉提示。这些方法在复杂的多模式推理方面遇到了困难，从而限制了它们在实际文档上的性能 ...

0 0 0 0 2025/04/19 arXiv:2503.13964v1 arthur

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

检索增强生成 (RAG) 通过集成外部知识来增强大型语言模型 (LLM)，以减少幻觉并合并最新信息，而无需重新训练。作为 RAG 的重要组成部分，外部知识库通常是通过使用光学字符识别 (OCR) 从非结构化 PDF 文档中提取结构化数据来构建的。然而，鉴于 OCR 的不完美预测以及结构化数据固有的非均匀表示，知识库不可避免地包含各种 OCR 噪声 ...

0 0 0 0 2025/04/19 arXiv:2412.02592v2 arthur

Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval

现有的跨模式检索方法通常依赖于大规模视觉语言对数据。这使得有效地开发出资源不足的感兴趣语言的跨模式检索模型具有挑战性。因此，旨在使视觉和低资源语言（目标语言）保持一致的跨语言跨模式检索（CCR），而无需使用任何人类标记的目标语言数据，但已引起了人们的关注越来越多 ...

0 0 0 0 2025/04/18 arXiv:2412.13510v1 arthur

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

跨语言跨模式检索（CCR）旨在根据非英语查询来检索视觉相关的内容，而无需在训练过程中依靠人类标记的跨模式数据对。一种流行的方法涉及利用机器翻译（MT）创建伪并行数据对，并在视觉和非英语文本数据之间建立对应关系。但是，由于视觉和文本之间存在显着的语义差距，以及由预训练的编码器和数据噪声引起的非英语表示的质量较低，因此对它们的表示形式构成了挑战 ...

0 0 0 0 2025/04/17 arXiv:2409.19961v1 arthur

SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

多模式的大型语言模型（MLLM）最近在文本丰富的图像理解中显示出巨大的进步，但他们仍然在复杂的，多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制，而将所有页面直接呈现给MLLMS会导致效率低下，尤其是冗长的效率。在这项工作中，我们提出了一个名为** s ** elf的新颖框架 - ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能（sv-rag），它可以拓宽任何MLLM的视野以支持长期记录的理解 ...

0 0 0 0 2025/04/16 arXiv:2411.01106v2 arthur

KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）