遥感图像中的变化检测对于城市规划、环境监测和灾害管理等应用至关重要。传统的变化检测方法通常识别两个时间图像之间的所有变化,而不区分过渡的类型,这可能导致结果可能与特定用户需求不符。尽管语义变化检测方法试图通过将变化分类为预定义的类来解决这个问题,但这些方法依赖于严格的类定义和固定的模型架构,使得很难将数据集与不同的标签集混合或跨任务重用模型,因为输出通道与语义类的数量和类型紧密耦合。为了克服这些限制,我们引入了参考变化检测(RCD),它利用自然语言提示来检测遥感图像中特定类别的变化。通过将语言理解与视觉分析相结合,我们的方法允许用户指定他们感兴趣的确切变化类型。然而,由于注释数据的可用性有限以及现有数据集中严重的类别不平衡,RCD 的训练模型具有挑战性。为了解决这个问题,我们提出了一个两阶段框架,其中包括(I)\textbf{RCDNet},一个为引用变化检测而设计的跨模态融合网络,以及(II)\textbf{RCDGen},一个基于扩散的合成数据生成管道,仅使用变化前图像生成真实的变化后图像和指定类别的变化图,而不依赖语义分割掩模,从而显着降低可扩展数据创建的障碍。跨多个数据集的实验表明,我们的框架能够实现可扩展且有针对性的变化检测。项目网站在这里:https URL ...
由于固定的上下文窗口和弱长期依赖建模,多模式大型语言模型(MLLM)与长视频斗争。视频的现有检索效果生成(RAG)方法使用静态检索策略,从而导致效率低下,以实现简单的查询和复杂任务的信息丢失。为了解决这个问题,我们提出了Adavideorag,这是一个新颖的框架,该框架使用轻量级的意图分类器,基于查询复杂性动态调整检索粒度 ...
在过去的十年中,卷积神经网络(CNN)已被广泛用作端到端音频分类模型的主要构件,该模型旨在学习从音频频谱到相应标签的直接映射。为了更好地捕获远距离的全球环境,最近的趋势是在CNN之上添加自我注意力的机制,形成CNN引入混合模型。但是,目前尚不清楚是否需要依赖CNN,并且纯粹基于注意力的神经网络足以在音频分类中获得良好的表现 ...
随着视觉语言预训练模型(VLPM)的开发,以剪辑和对齐为代表,已经通过零件的零拍功能在没有微调的情况下通过零拍的能力来实现基于关联的视觉任务(例如图像分类和图像文本检索)的显着突破。但是,剪辑很难应用于基于一代的任务。这是由于缺乏解码器体系结构和生成预训练任务 ...
从几个例子中学习仍然是机器学习的关键挑战。尽管在视觉和语言等重要领域取得了进步,但标准监督的深度学习范式并未为快速从很少的数据中迅速学习新概念提供令人满意的解决方案。在这项工作中,我们采用了基于深层神经特征的公制学习和最新进步的想法,这些进步增强了具有外部记忆的神经网络 ...
多模式 Transformer 在视频字幕任务中迅速引起关注。现有的多模式视频字幕方法通常提取固定数量的帧,这引起了关键的挑战。当提取有限数量的帧时,可能会错过带有字幕生成基本信息的重要帧 ...
最新的轻巧图像字幕使用检索到的数据主要关注文本提示。但是,以前的作品仅将检索到的文本作为文本提示,而视觉信息仅依赖于剪辑视觉嵌入。由于这个问题,有一个限制,即提示中固有的图像描述在视觉嵌入空间中没有充分反映 ...
图像字幕的最新进展探讨了仅文本训练方法,以克服配对图像文本数据的局限性。但是,现有的纯文本培训方法通常会忽略在培训期间使用文本数据和在推理过程中使用图像之间的方式差距。为了解决这个问题,我们提出了一种称为图像样检索的新颖方法,该方法将文本功能与视觉上相关的功能保持一致,以减轻模态差距 ...
在本文中,我们提出了一种用于多模态理解和生成的视觉-音频-语言全感知预训练模型(VALOR)。与广泛研究的视觉语言预训练模型不同,VALOR 以端到端的方式联合建模视觉、音频和语言的关系。它包含三个用于单模态表示的独立编码器,以及一个用于多模态条件文本生成的解码器 ...
本文介绍了多模式检索仪(M^2RAG),这是一种基准测试,旨在评估多模式大语言模型(MLLMS)在利用多模式检索文档的知识中的有效性。基准标准包括四个任务:图像字幕,多模式问答,多模式的事实验证和图像重新管理。所有任务均在开放域设置中设置,需要从多模式文档收集中检索与查询相关的信息,并将其用作抹布建模的输入上下文 ...