基本信息 - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

arxiv Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

阅读

Star 0

名称: Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

首页: https://yiyibooks.cn/arxiv/2412.13949v2/index.html

原始地址: https://arxiv.org/pdf/2412.13949v2

描述

大型视觉语言模型 (LVLM) 在将大型语言模型 (LLM) 与视觉输入集成方面取得了实质性进展，从而实现了高级多模态推理。尽管取得了成功，但一个持续存在的挑战是幻觉——生成的文本无法准确反映视觉内容——破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进，但主要解决生成阶段的症状，而不探究根本原因 ...

0%

上传成功 0 个文件