arxiv Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

名称
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
首页
https://yiyibooks.cn/arxiv/2404.07973v1/index.html
原始地址
https://arxiv.org/pdf/2404.07973.pdf
描述
虽然 Ferret 将区域理解无缝集成到大语言模型 (LLM) 中,以促进其参考和基础能力,但它也存在一定的局限性:受到预先训练的固定视觉编码器的限制,无法在更广泛的任务上表现良好。在这项工作中,我们推出了 Ferret-v2,它是 Ferret 的重大升级,具有三个关键设计。 (1) 任何分辨率基础和参考:一种灵活的方法,可以轻松处理更高的图像分辨率,提高模型更详细地处理和理解图像的能力 ...