基本信息 - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

arxiv Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

阅读

Star 0

名称: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

首页: https://yiyibooks.cn/arxiv/2310.11441v2/index.html

原始地址: https://arxiv.org/abs/2310.11441

描述

我们提出了一种新的视觉提示方法 Set-of-Mark (SoM)，以释放大型多模态模型 (LMM)（例如 GPT-4V）的视觉基础能力。如图 1（右）所示，我们采用现成的交互式分割模型（例如 SEEM/SAM）将图像划分为不同粒度级别的区域，并用一组标记 e 覆盖这些区域 ...