密集视频字幕的研究受到了极大的关注,其目的是自动定位未修剪视频中的所有事件并为其添加字幕。一些研究介绍了通过将密集视频字幕设计为事件定位和事件字幕的多任务问题来考虑任务间关系的方法。然而,由于缺乏语义内容,仅使用视觉输入来解决这两个任务具有挑战性 ...
视频问答 (VideoQA) 从最近的大型语言模型 (LLM) 的扩展中得到了显着的进步。关键思想是将视觉信息转换到语言特征空间,以便充分发挥 LLM 的能力。现有的 VideoQA 方法通常采用两种范例:(1)学习跨模式对齐,(2)使用现成的字幕模型来描述视觉数据 ...
基于大语言模型 (LLM) 的图像字幕能够描述训练数据中未明确观察到的对象;然而新奇的物体经常出现,需要维持最新的物体知识来理解开放世界。我们不依赖大量数据和/或扩大网络参数,而是引入一种高效的检索增强图像字幕方法,该方法提示 LLM 从外部视觉名称内存(EVCap)检索对象名称。我们使用对象的视觉效果和名称构建不断变化的对象知识记忆,使我们能够 (i) 以最低的成本更新记忆,以及 (ii) 通过利用轻量级且快速训练的模型,轻松地通过检索到的对象名称来增强 LLM ...
图像字幕模型在应用于新颖的数据集时通常会出现性能下降,因为它们通常是在特定领域的数据上进行训练的。为了增强域外场景的泛化能力,检索增强方法引起了越来越多的关注。然而,当前的方法面临两个关键挑战:(1)用于检索的图像特征通常基于真实(GT)字幕进行优化,这些字幕从特定角度表示图像并受到注释者偏差的影响,(2)它们未充分利用检索到的文本的全部潜力,通常依赖于原始标题或解析的对象,而无法捕获数据的完整语义丰富性 ...