arthur的文档

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

从反馈中学习可以使多模态大语言模型（MLLM）与人类偏好保持一致，从而减少它们的幻觉。虽然传统方法依赖于劳动密集型和运行的手动标记，但最近采用模型作为自动标记器该方法在人工干预的情况下显示出了希望的结果。然而，这些方法严重依赖于昂贵的母模型（如 GPT-4V），导致可扩展性问题...... ...

0 0 0 0 2025/01/28 arXiv:2405.17220v2 arthur

Scalable Vision Language Model Training via High Quality Data Curation

在本文中，我们介绍了 SAIL-VL（通过高质量数据管理进行的 ScAlable 视觉语言模型训练），这是一种具有 2B 参数的最先进 (SOTA) 性能的开源视觉语言模型 (VLM)。我们介绍了有助于 SAIL-VL 领先性能的三个关键改进：（1）可扩展的高质量视觉理解数据构建：我们实现了视觉理解数据构建管道，可实现亿级高质量重述数据注释。配备此管道，我们策划了 SAIL-Caption，这是一个与开源字幕数据集相比数量大且数据质量最高的大规模字幕数据集 ...

0 0 0 0 2025/01/20 arXiv:2501.05952v1 arthur

Multimodal Preference Data Synthetic Alignment with Reward Model

多模态大语言模型（MLLM）通过集成视觉和文本数据来完成显着的高级任务，例如标题生成和视觉问答。然而，由于预训练数据与真实用户提示之间的差异，它们有时会产生误导或幻觉内容。在视觉语言任务中使用直接偏好优化 (DPO) 的现有方法通常依赖于 GPT-4 或 CLIP 等强大模型来确定正面和负面响应 ...

0 0 0 0 2025/01/18 arXiv:2412.17417v1 arthur

Calibrated Self-Rewarding Vision Language Models

通过指令调优集成预训练的大语言模型 (LLM) 和视觉模型，大型视觉语言模型 (LVLM) 取得了实质性进展。尽管取得了这些进步，LVLM 经常表现出幻觉现象，其中生成的文本响应在语言上看似合理，但与输入图像相矛盾，表明图像和文本对之间存在偏差。出现这种不一致的原因是模型倾向于优先考虑文本信息而不是视觉输入，即使语言模型和视觉表示都是高质量的 ...

0 0 0 0 2025/01/18 arXiv:2405.14622v4 arthur

Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation

多模态大型语言模型 (MLLM)（例如 LLaVA 系列模型）的最新进展是由大量机器生成的指令跟踪数据调优驱动的。然而，这种自动指令收集管道无意中引入了数据质量的显着变化。本文介绍了一种新颖的指令管理算法，该算法从人类和 LLM 偏好对齐这两个独特的角度衍生出来，将机器生成的多模态指令的庞大语料库压缩为紧凑且高质量的形式：（i）对于人类偏好对齐，我们收集了机器生成的多模式指令数据集，并建立了一套全面的主观和客观标准，以批判性地指导人类专家的数据质量评估 ...

0 0 0 0 2025/01/17 arXiv:2409.18541v2 arthur

VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment

随着大型视觉语言模型 (LVLM) 的快速发展，对高质量和多样化数据来协调这些模型的需求变得越来越重要。然而，事实证明，在人工监督下创建此类数据成本高昂且耗时。在本文中，我们研究了人工智能反馈对调整 LVLM 的规模监督的有效性 ...

0 0 0 0 2025/01/07 arXiv:2410.09421v2 arthur

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

大型视觉语言模型 (LVLM) 在将大型语言模型 (LLM) 与视觉输入集成方面取得了实质性进展，从而实现了高级多模态推理。尽管取得了成功，但一个持续存在的挑战是幻觉——生成的文本无法准确反映视觉内容——破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进，但主要解决生成阶段的症状，而不探究根本原因 ...

0 0 0 0 2025/01/06 arXiv:2412.13949v2 arthur

Seeing Clearly by Layer Two: Enhancing Attention Heads to Alleviate Hallucination in LVLMs

多模态大语言模型（MLLM）中的幻觉问题仍然是一个常见问题。尽管图像标记占据了 MLLM 输入序列的大部分，但探索图像标记与幻觉之间关系的研究却很有限。在本文中，我们分析了模型各层和头部的图像标记的注意力分数分布，揭示了一个有趣且常见的现象：大多数幻觉与图像标记的自注意力矩阵中的注意力池模式密切相关，其中浅层表现出密集的注意力汇，而较深层则表现出稀疏的注意力汇 ...

0 0 0 0 2025/01/06 arXiv:2411.09968v1 arthur

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

由于视觉信息表示所需的大量参数和额外输入标记，多模态大语言模型 (MLLM) 需要大量计算来进行推理。在此，我们介绍 Visual Tokens Withdrawal (VTW)，这是一个即插即用的模块，可增强 MLLM 的快速推理能力。我们的方法受到我们观察到的两个有趣现象的启发：（1）LLM 中普遍存在的注意力集中现象在 MLLM 中也持续存在，这表明初始标记和最近的标记受到大多数关注，而中间视觉标记在 MLLM 中获得最少的关注。深层； (2) 信息迁移的存在，这意味着视觉信息被转移到 MLLM 的前几层内的后续文本标记 ...

0 0 0 0 2025/01/06 arXiv:2405.05803v2 arthur

From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding

大型视觉语言模型 (LVLM) 在多模式任务中表现出卓越的能力，但很容易误解视觉输入，常常导致幻觉和不可靠的输出。为了应对这些挑战，我们提出了 Dropout Decoding，这是一种新颖的推理时间方法，可以量化视觉标记的不确定性并有选择地掩盖不确定标记以改进解码。我们的方法通过将每个视觉标记投影到文本空间并将其分解为任意和认知成分来测量每个视觉标记的不确定性 ...

0 0 0 0 2025/01/06 arXiv:2412.06474v1 arthur