在本文中,我们介绍了 SAIL-VL(通过高质量数据管理进行的 ScAlable 视觉语言模型训练),这是一种具有 2B 参数的最先进 (SOTA) 性能的开源视觉语言模型 (VLM)。我们介绍了有助于 SAIL-VL 领先性能的三个关键改进:(1)可扩展的高质量视觉理解数据构建:我们实现了视觉理解数据构建管道,可实现亿级高质量重述数据注释。配备此管道,我们策划了 SAIL-Caption,这是一个与开源字幕数据集相比数量大且数据质量最高的大规模字幕数据集 ...

0 0 0 0 2025/01/20 arXiv:2501.05952v1 arthur

多模态大语言模型(MLLM)通过集成视觉和文本数据来完成显着的高级任务,例如标题生成和视觉问答。然而,由于预训练数据与真实用户提示之间的差异,它们有时会产生误导或幻觉内容。在视觉语言任务中使用直接偏好优化 (DPO) 的现有方法通常依赖于 GPT-4 或 CLIP 等强大模型来确定正面和负面响应 ...

0 0 0 0 2025/01/18 arXiv:2412.17417v1 arthur

通过指令调优集成预训练的大语言模型 (LLM) 和视觉模型,大型视觉语言模型 (LVLM) 取得了实质性进展。尽管取得了这些进步,LVLM 经常表现出幻觉现象,其中生成的文本响应在语言上看似合理,但与输入图像相矛盾,表明图像和文本对之间存在偏差。出现这种不一致的原因是模型倾向于优先考虑文本信息而不是视觉输入,即使语言模型和视觉表示都是高质量的 ...

0 0 0 0 2025/01/18 arXiv:2405.14622v4 arthur

多模态大型语言模型 (MLLM)(例如 LLaVA 系列模型)的最新进展是由大量机器生成的指令跟踪数据调优驱动的。然而,这种自动指令收集管道无意中引入了数据质量的显着变化。本文介绍了一种新颖的指令管理算法,该算法从人类和 LLM 偏好对齐这两个独特的角度衍生出来,将机器生成的多模态指令的庞大语料库压缩为紧凑且高质量的形式:(i)对于人类偏好对齐,我们收集了机器生成的多模式指令数据集,并建立了一套全面的主观和客观标准,以批判性地指导人类专家的数据质量评估 ...

0 0 0 0 2025/01/17 arXiv:2409.18541v2 arthur

随着大型视觉语言模型 (LVLM) 的快速发展,对高质量和多样化数据来协调这些模型的需求变得越来越重要。然而,事实证明,在人工监督下创建此类数据成本高昂且耗时。在本文中,我们研究了人工智能反馈对调整 LVLM 的规模监督的有效性 ...

0 0 0 0 2025/01/07 arXiv:2410.09421v2 arthur

大型视觉语言模型 (LVLM) 在将大型语言模型 (LLM) 与视觉输入集成方面取得了实质性进展,从而实现了高级多模态推理。尽管取得了成功,但一个持续存在的挑战是幻觉——生成的文本无法准确反映视觉内容——破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进,但主要解决生成阶段的症状,而不探究根本原因 ...

0 0 0 0 2025/01/06 arXiv:2412.13949v2 arthur

多模态大语言模型(MLLM)中的幻觉问题仍然是一个常见问题。尽管图像标记占据了 MLLM 输入序列的大部分,但探索图像标记与幻觉之间关系的研究却很有限。在本文中,我们分析了模型各层和头部的图像标记的注意力分数分布,揭示了一个有趣且常见的现象:大多数幻觉与图像标记的自注意力矩阵中的注意力池模式密切相关,其中浅层表现出密集的注意力汇,而较深层则表现出稀疏的注意力汇 ...

0 0 0 0 2025/01/06 arXiv:2411.09968v1 arthur

由于视觉信息表示所需的大量参数和额外输入标记,多模态大语言模型 (MLLM) 需要大量计算来进行推理。在此,我们介绍 Visual Tokens Withdrawal (VTW),这是一个即插即用的模块,可增强 MLLM 的快速推理能力。我们的方法受到我们观察到的两个有趣现象的启发:(1)LLM 中普遍存在的注意力集中现象在 MLLM 中也持续存在,这表明初始标记和最近的标记受到大多数关注,而中间视觉标记在 MLLM 中获得最少的关注。深层; (2) 信息迁移的存在,这意味着视觉信息被转移到 MLLM 的前几层内的后续文本标记 ...

0 0 0 0 2025/01/06 arXiv:2405.05803v2 arthur

大型视觉语言模型 (LVLM) 在多模式任务中表现出卓越的能力,但很容易误解视觉输入,常常导致幻觉和不可靠的输出。为了应对这些挑战,我们提出了 Dropout Decoding,这是一种新颖的推理时间方法,可以量化视觉标记的不确定性并有选择地掩盖不确定标记以改进解码。我们的方法通过将每个视觉标记投影到文本空间并将其分解为任意和认知成分来测量每个视觉标记的不确定性 ...

0 0 0 0 2025/01/06 arXiv:2412.06474v1 arthur

虽然大型视觉语言模型(LVLM)近年来迅速发展,但普遍存在的“幻觉”问题已成为一个重大瓶颈,阻碍了它们在现实世界的部署。现有方法主要从两个角度缓解这个问题:一种方法利用额外的知识,例如使用精选数据集调整 LVLM 的鲁棒指令或采用辅助分析网络,这不可避免地会产生额外成本。另一种方法称为对比解码,它通过手动干扰视觉或指令原始输入来诱发幻觉,并通过对比受干扰的 LVLM 和原始 LVLM 的输出来减轻幻觉 ...

0 0 0 0 2025/01/05 arXiv:2408.02032v2 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)