arxiv Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

名称
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
首页
https://yiyibooks.cn/arxiv/2310.11441v2/index.html
原始地址
https://arxiv.org/abs/2310.11441
描述
我们提出了一种新的视觉提示方法 Set-of-Mark (SoM),以释放大型多模态模型 (LMM)(例如 GPT-4V)的视觉基础能力。如图 1(右)所示,我们采用现成的交互式分割模型(例如 SEEM/SAM)将图像划分为不同粒度级别的区域,并用一组标记 e 覆盖这些区域 ...