从第一人称观点视频中了解人类行为会带来重大挑战。大多数先前的方法仅在以自我为中心的视频上探索表示形式学习,同时忽略了利用现有大型第三人称视频的潜在好处。在本文中,(1)我们开发了Egoinstructor,这是一种检索型多模式字幕模型,该模型会自动检索语义相关的第三人称教学视频,以增强以Egentric视频的视频字幕 ...
由于有限的上下文,现有的大型视频模型(LVLM)难以正确理解长时间的视频。为了解决这一问题,长篇文化LVLM和使用基于GPT的代理的微调已成为有前途的解决方案。但是,微调LVLM需要广泛的高质量数据和大量的GPU资源,而基于GPT的代理将依靠专有模型(e ...
通过外部知识整合增强大语言模型(LLM)在增强大型语言模型(LLM)方面取得了显着成功,但其应用主要集中在文本内容上,使多模式视频知识的丰富领域主要没有探索。本文介绍了Videorag,这是第一个专门为处理和理解极其长篇小说视频而设计的检索生成框架。我们的核心创新在于其双通道体系结构,该体系结构无缝集成(i)基于图形的文本知识接地,用于捕获跨Video语义关系,以及(ii)多模式上下文编码以有效保留视觉特征 ...
检索增强的生成(RAG)是一种有力的策略,可以通过检索与查询相关的外部知识并将其纳入其生成过程中的外部知识,以解决基础模型中事实错误产出的问题。但是,现有的RAG方法主要集中在文本信息上,最近一些进步开始考虑图像,并且在很大程度上忽略了视频,这是能够比任何其他方式更有效地表示事件,过程和上下文细节的丰富多模式知识来源。虽然最近的一些研究探讨了视频在响应生成过程中的集成,但它们要么预先定义与查询相关的视频而不根据查询检索它们,要么将视频转换为文本描述而不利用其多模式丰富性 ...
密集视频字幕的研究受到了极大的关注,其目的是自动定位未修剪视频中的所有事件并为其添加字幕。一些研究介绍了通过将密集视频字幕设计为事件定位和事件字幕的多任务问题来考虑任务间关系的方法。然而,由于缺乏语义内容,仅使用视觉输入来解决这两个任务具有挑战性 ...
基于大语言模型 (LLM) 的图像字幕能够描述训练数据中未明确观察到的对象;然而新奇的物体经常出现,需要维持最新的物体知识来理解开放世界。我们不依赖大量数据和/或扩大网络参数,而是引入一种高效的检索增强图像字幕方法,该方法提示 LLM 从外部视觉名称内存(EVCap)检索对象名称。我们使用对象的视觉效果和名称构建不断变化的对象知识记忆,使我们能够 (i) 以最低的成本更新记忆,以及 (ii) 通过利用轻量级且快速训练的模型,轻松地通过检索到的对象名称来增强 LLM ...
图像字幕模型在应用于新颖的数据集时通常会出现性能下降,因为它们通常是在特定领域的数据上进行训练的。为了增强域外场景的泛化能力,检索增强方法引起了越来越多的关注。然而,当前的方法面临两个关键挑战:(1)用于检索的图像特征通常基于真实(GT)字幕进行优化,这些字幕从特定角度表示图像并受到注释者偏差的影响,(2)它们未充分利用检索到的文本的全部潜力,通常依赖于原始标题或解析的对象,而无法捕获数据的完整语义丰富性 ...