检索增强生成(RAG)系统代表了传统大型语言模型(LLM)的显着进步。 RAG 系统通过合并通过信息检索 (IR) 阶段检索到的外部数据来增强其生成能力,克服了标准 LLM 的局限性,即受限于其预先训练的知识和有限的上下文窗口。该领域的大多数研究主要集中在 RAG 系统内 LLM 的生成方面 ...
在本文中,我们设计和培训生成的图像到文本 Transformer Git,以统一视觉语言任务,例如图像/视频字幕和问题答案。尽管生成模型在预训练和微调之间提供了一致的网络体系结构,但现有工作通常包含复杂的结构(uni/多模式编码器/解码器),并取决于外部模块,例如对象检测器/taggers和光学角色识别(OCR)。在git中,我们将体系结构简化为一个图像编码器,而在单语言建模任务下将架构简化为一个文本解码器 ...
在本文中,我们介绍了一种新颖的方法,以使用相对的对比学习来学习视觉和语义一致性。我们的方法以对比方式最大化区域和对象标签之间的兼容性。为了建立一个适当的对比度学习目标,对于每个图像,我们通过利用从基础模型(例如剪辑)获得的正面和负面对的相对性质来增强标签 ...
新颖的对象字幕旨在描述训练数据中缺少的对象,关键要素是为模型提供对象词汇。尽管现有方法在很大程度上依赖于对象检测模型,但我们将检测步骤视为词汇检测,从外部知识中以嵌入形式从Wiktionary的任何对象定义的嵌入形式中获取,我们在检索图像区域中使用从变形金刚模型中学到的特征。我们提出了一个端到端的小说对象,并从外部知识方法(NOC-REK)中检索了词汇,该对象同时学习了词汇检索和标题生成,并成功地描述了训练数据集外的新颖对象 ...
了解视频中发生的事件的内容及其固有的时间逻辑对于视频检索至关重要。但是,网络爬行的预训练数据集通常缺乏足够的事件信息,并且广泛采用的视频级交叉模式对比度学习也努力捕获详细且复杂的视频文本事件对齐。为了应对这些挑战,我们从数据和模型角度进行了改进 ...
人类的日常活动可以简洁地叙述为视频流中的常规事件序列(例如,关闭警报),形成事件词汇 ...
在最近的文本视频检索中,使用视觉模型的其他字幕显示了对性能的有希望的影响。但是,使用其他字幕的现有模型通常努力捕获视频中固有的富有语义(包括时间变化)。此外,由生成模型引起的错误信息可能导致检索不正确 ...
手术实践涉及复杂的视觉解释,程序技能和先进的医学知识,这使手术视觉治疗训练(VLP)尤其具有挑战性,这是由于这种复杂性和带注释的数据的有限可用性。为了解决差距,我们提出了OphClip,这是一个专门针对眼科外科手术工作流程理解专门设计的层次检索式视觉审计框架。 OPHCLIP利用了我们构建的OPHVL数据集,这是超过375k层次结构化的视频文本对成对的大规模和全面集合,具有成千上万种不同的属性组合(手术,阶段/操作/操作/操作/操作/操作/操作,行动,工具,药物,药物,以及更多的先进方面,以及更先进的信息,以及sur surgease converive surgical confortial confortive confortial confortial confortial confort ingerical et.对象 ...
本文攻击了零示例视频检索的具有挑战性的问题。在这样的检索范式中,最终用户通过自然语言文本中描述的临时查询搜索未提供视觉示例的临时查询。给定的视频是帧和查询作为单词序列的序列,需要有效的序列到序列的交叉模式匹配 ...
尽管完全监督的视频字幕取得了重大进展,但零射击方法的探索仍然少得多。在本文中,我们提出了一个名为“检索增强测试时间适应性(RETTA)”的新颖零摄像视频字幕字幕框架,该框架利用了现有的预处理的大规模视觉和语言模型,以直接生成测试时间适应的字幕。具体而言,我们使用四个关键模型桥接视频和文本:一般的视频文本检索模型XClip,一般图像文本匹配模型剪辑,文本对齐模型角度和文本生成型GPT-2,由于其源 - 代码可用性 ...