arxiv Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

名称
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence
首页
https://yiyibooks.cn/arxiv/2412.13949v2/index.html
原始地址
https://arxiv.org/pdf/2412.13949v2
描述
大型视觉语言模型 (LVLM) 在将大型语言模型 (LLM) 与视觉输入集成方面取得了实质性进展,从而实现了高级多模态推理。尽管取得了成功,但一个持续存在的挑战是幻觉——生成的文本无法准确反映视觉内容——破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进,但主要解决生成阶段的症状,而不探究根本原因 ...