15966829631的文档

Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

几次学习中交错的大型多模型模型（LMM）的最新成功表明，具有许多示例的文化学习（ICL）可以有望学习新任务。但是，这种多型多模式ICL设置有一个关键问题：它从根本上受到模型的上下文长度的限制。该问题在多模式域中尤为突出，该域处理文本和图像，需要其他 Token ...

0 0 0 0 2025/09/05 arXiv:2406.15334v3 15966829631

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

本文介绍了Miss-QA，这是第一个专门设计用于评估模型在科学文献中解释示意图的能力的基准。 QA小姐包括465篇科学论文的1,500个专家宣布的例子。在此基准测试中，模型的任务是解释示意图，这些图表说明了研究概述并根据本文的更广泛背景来回答相应的信息寻求问题 ...

0 0 0 0 2025/09/04 arXiv:2507.10787v1 15966829631

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

大型语言模型 (LLM) 已展现出令人印象深刻的推理能力，特别是在解决文本数学问题方面。然而，现有的开源图像指令微调数据集（每张图像包含有限的问答对）并没有充分利用视觉信息来增强多模态 LLM （MLLM）的多模态数学推理能力。为了弥补这一差距，我们通过从 24 个现有数据集中收集 40K 带有问答对的高质量图像并合成 320K 新对，创建 MathV360K 数据集，从而解决了缺乏高质量、多样化的多模态数学数据集的问题，这增强了广度和多模态数学问题的深度 ...

0 0 0 0 2025/09/03 arXiv:2406.17294v3 15966829631

Towards Interpreting Visual Information Processing in Vision-Language Models

视觉语言模型 (VLM) 是处理和理解文本和图像的强大工具。我们研究了 LLaVA（一种著名的 VLM）的语言模型组件中视觉标记的处理。我们的方法侧重于分析对象信息的本地化、跨层视觉标记表示的演变以及集成视觉信息进行预测的机制 ...

0 0 0 0 2025/09/03 arXiv:2410.07149v2 15966829631

AtomThink: Multimodal Slow Thinking with Atomic Step Reasoning

在本文中，我们通过将“慢思维”的能力融入多模态大语言模型（MLLM）来解决多模态数学推理的挑战性任务。与依赖直接或快速思维的现有方法相反，我们的关键思想是构建由原子动作逐步组成的长思想链（CoT），指导 MLLM 执行复杂的推理为此，我们设计了一个新颖的 AtomThink 框架，由三个关键模块组成：（i）CoT 注释引擎。自动生成高质量的 CoT 注释，以解决缺乏高质量视觉数学数据的问题；(ii) 联合优化 MLLM 和策略奖励模型 (PRM) 以进行逐步推理的原子步骤微调策略； (iii) 四种不同的搜索策略可以与 PRM 一起应用来完成推理 ...

0 0 0 0 2025/09/03 arXiv:2411.11930v4 15966829631

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding

深层的多模式语义理解超出了仅仅是肤浅的内容关系挖掘，在人工智能领域受到了越来越多的关注。收集和注释高质量多模式数据的挑战强调了几乎没有学习的重要性。在本文中，我们将重点关注这两个关键任务：几乎没有射击多模式讽刺检测（MSD）和多模式情感分析（MSA） ...

0 0 0 0 2025/09/03 arXiv:2403.11311v2 15966829631

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

视觉理解和产生所需的不同表示空间在将它们统一的大型语言模型的自回归范式中构成挑战。经过重建的视觉 Token 机构擅长捕获低级感知细节，使其非常适合视觉生成，但缺乏用于理解任务的高级语义表示。相反，通过对比度学习训练的视觉编码器与语言良好相符，但努力将其解码回到像素空间中以进行生成任务 ...

0 0 0 0 2025/09/02 arXiv:2503.14324v2 15966829631

Multilingual Multimodal Software Developer for Code Generation

大型语言模型（LLMS）的快速发展已经显着改善了代码的生成，但是大多数模型仍然仅文本，忽略了现实世界软件开发中使用的图表和流程图，例如图表和流程图。为了弥合这一差距，我们介绍了MM-Coder，这是一种多语言多模式软件开发人员。 MM-Coder集成了视觉设计输入统一的建模语言（UML）图和流程图（称为Visual Workflow） - 具有文本指令，以增强代码生成的准确性和架构对齐 ...

0 0 0 0 2025/09/02 arXiv:2507.08719v1 15966829631

MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems

编程通常涉及将详细和复杂的规格转换为代码，在此过程中，开发人员通常会利用视觉辅助工具来更有效地传达概念。尽管大型多模型模型的最新发展已经在视觉推理和数学任务中表现出了非凡的能力，但研究这些模型是否可以有效地解释代码生成的视觉元素的工作很少。为此，我们提出了MMCode，这是第一个用于评估视觉上富裕环境中算法解决问题技能的多模式编码数据集 ...

0 0 0 0 2025/09/02 arXiv:2404.09486v2 15966829631

CodeV: Issue Resolving with Visual Data

近年来，大型语言模型（LLMS）在软件工程中的应用扩展到更复杂的存储库级任务。 GitHub问题解决是这些任务之间的关键挑战。尽管最近的方法在此任务上取得了进展，但他们将重点放在问题中的文本数据上，忽略了视觉数据 ...

0 0 0 0 2025/09/02 arXiv:2412.17315v1 15966829631