由于固定的上下文窗口和弱长期依赖建模,多模式大型语言模型(MLLM)与长视频斗争。视频的现有检索效果生成(RAG)方法使用静态检索策略,从而导致效率低下,以实现简单的查询和复杂任务的信息丢失。为了解决这个问题,我们提出了Adavideorag,这是一个新颖的框架,该框架使用轻量级的意图分类器,基于查询复杂性动态调整检索粒度 ...
在过去的十年中,卷积神经网络(CNN)已被广泛用作端到端音频分类模型的主要构件,该模型旨在学习从音频频谱到相应标签的直接映射。为了更好地捕获远距离的全球环境,最近的趋势是在CNN之上添加自我注意力的机制,形成CNN引入混合模型。但是,目前尚不清楚是否需要依赖CNN,并且纯粹基于注意力的神经网络足以在音频分类中获得良好的表现 ...
随着视觉语言预训练模型(VLPM)的开发,以剪辑和对齐为代表,已经通过零件的零拍功能在没有微调的情况下通过零拍的能力来实现基于关联的视觉任务(例如图像分类和图像文本检索)的显着突破。但是,剪辑很难应用于基于一代的任务。这是由于缺乏解码器体系结构和生成预训练任务 ...
从几个例子中学习仍然是机器学习的关键挑战。尽管在视觉和语言等重要领域取得了进步,但标准监督的深度学习范式并未为快速从很少的数据中迅速学习新概念提供令人满意的解决方案。在这项工作中,我们采用了基于深层神经特征的公制学习和最新进步的想法,这些进步增强了具有外部记忆的神经网络 ...
多模式 Transformer 在视频字幕任务中迅速引起关注。现有的多模式视频字幕方法通常提取固定数量的帧,这引起了关键的挑战。当提取有限数量的帧时,可能会错过带有字幕生成基本信息的重要帧 ...
最新的轻巧图像字幕使用检索到的数据主要关注文本提示。但是,以前的作品仅将检索到的文本作为文本提示,而视觉信息仅依赖于剪辑视觉嵌入。由于这个问题,有一个限制,即提示中固有的图像描述在视觉嵌入空间中没有充分反映 ...
图像字幕的最新进展探讨了仅文本训练方法,以克服配对图像文本数据的局限性。但是,现有的纯文本培训方法通常会忽略在培训期间使用文本数据和在推理过程中使用图像之间的方式差距。为了解决这个问题,我们提出了一种称为图像样检索的新颖方法,该方法将文本功能与视觉上相关的功能保持一致,以减轻模态差距 ...
在本文中,我们提出了一种用于多模态理解和生成的视觉-音频-语言全感知预训练模型(VALOR)。与广泛研究的视觉语言预训练模型不同,VALOR 以端到端的方式联合建模视觉、音频和语言的关系。它包含三个用于单模态表示的独立编码器,以及一个用于多模态条件文本生成的解码器 ...
本文介绍了多模式检索仪(M^2RAG),这是一种基准测试,旨在评估多模式大语言模型(MLLMS)在利用多模式检索文档的知识中的有效性。基准标准包括四个任务:图像字幕,多模式问答,多模式的事实验证和图像重新管理。所有任务均在开放域设置中设置,需要从多模式文档收集中检索与查询相关的信息,并将其用作抹布建模的输入上下文 ...
通常使用生成模型或歧视性嵌入来解决一声学习。基于深度学习的判别方法在其他学习方案中非常有效,非常适合一声学习,因为它们需要大量的培训数据。在本文中,我们提出了一种学习深度模型的参数的方法 ...