3D高斯脱落(3DGS)最近已成为3D场景表示的神经辐射场(NERF)的有力替代品,提供了具有实时性能的高保真感性逼真的渲染。除了新颖的视图综合外,3DG的明确和紧凑性能还可以使需要几何学和语义理解的广泛下游应用。这项调查提供了有关3DGS应用程序最近进展的全面概述 ...
引用视频对象分割(RVOS)旨在分割视频中查询语句所引用的对象。大多数现有方法需要使用密集掩码注释进行端到端训练,这可能会消耗大量计算且可扩展性较差。在这项工作中,我们重新思考 RVOS 问题,旨在研究这项任务的关键。基于现有的基础分割模型,我们将 RVOS 任务分解为引用、视频和分割因素,并提出了一个临时提示生成和选择(Tenet)框架来解决引用和视频因素,同时将分割问题留给基础模型。为了有效地使基于图像的基础分割模型适应引用视频对象分割,我们利用现成的对象检测器和跟踪器来生成与引用句子相关的时间提示。虽然可以产生高质量的时间提示,但无法从置信度分数中轻松识别它们。为了解决这个问题,我们提出提示偏好学习来评估生成的时间提示的质量。通过利用此类提示来指导基于图像的基础分割模型,我们将能够为引用对象生成高质量的掩模,从而使模型能够有效地适应引用视频对象分割。 RVOS 基准测试证明了 Tenet 框架的有效性 ...
扩散蒸馏极大地加速了类条件图像合成,但其在开放式文本到图像(T2I)生成中的适用性仍不清楚。我们提出了第一个系统研究,该研究在强大的 T2I 教师模型 FLUX.1-lite 上采用和比较了最先进的蒸馏技术。通过将现有方法转化为统一的框架,我们确定了从离散类标签转向自由形式语言提示时出现的关键障碍。除了彻底的方法分析之外,我们还提供有关输入缩放、网络架构和超参数的实用指南,并附有开源实现和预训练的学生模型。我们的研究结果为在现实世界的 T2I 应用中部署快速、高保真且资源高效的扩散发生器奠定了坚实的基础。代码可在此 http URL 上找到 ...
Segment Anything Model 3 (SAM3) 通过提示概念分割实现了先进的开放词汇分割,允许用户分割与给定概念相对应的所有实例,通常用简短的名词短语 (NP) 提示指定。虽然这标志着 SAM 家族中语言级概念的首次集成,但现实世界的使用通常需要更丰富的表达式,包括属性、空间关系、功能、动作、状态,甚至对实例的隐式推理。目前,SAM3依赖外部多模态代理将复杂指令转换为NP,然后进行迭代掩码过滤。然而,这些 NP 级概念仍然过于粗糙,往往无法精确表示特定实例。在这项工作中,我们提出了 SAM3-I,这是一个增强的框架,它将 SAM 系列中的概念级理解和指令级推理统一起来。 SAM3-I 引入了指令感知级联适应机制,该机制逐步将表达性指令语义与 SAM3 现有的视觉语言表示相结合,从而实现直接指令跟踪分段,而无需牺牲其原始概念驱动功能。此外,我们设计了一个跨越概念、简单和复杂级别的结构化指令分类法,并开发了一个可扩展的数据引擎来构建具有不同指令掩码对的数据集。实验表明 SAM3-I 提供了吸引人的性能,证明 SAM3 可以有效扩展以遵循自然语言指令,同时保留其强大的概念基础。我们开源 SAM3-I 并提供实用的微调工作流程,使研究人员能够使其适应特定领域的应用。源代码可以在这里找到 ...
大规模视频文本预训练实现了强大的性能,但依赖于语义覆盖范围有限的嘈杂的合成字幕,经常忽略隐含的世界知识,例如对象运动、3D 几何和物理线索。相比之下,屏蔽视频建模(MVM)直接利用时空结构,但在一般任务上落后于文本监督方法。我们发现这种差距源于被忽视的架构问题:像素级重建难以收敛,其低级要求经常与语义相冲突,而潜在预测往往鼓励捷径学习。为了解决这些问题,我们将传统的编码器-解码器设计分解为编码器-预测器-解码器(EPD)框架,其中预测器充当潜在世界模型,并提出了 InternVideo-Next,这是一种两阶段预训练方案,可为该世界模型构建语义一致但保留细节的潜在空间。首先,像素MVM中的传统线性解码器强制预测器输出潜在地线性投影,从而在像素空间中可分离,导致与语义抽象的冲突。我们的第一阶段提出了一个条件扩散解码器,并注入可靠的图像级语义先验来增强语义和收敛性,从而将像素级保真度与高级语义抽象联系起来。第二阶段通过预测该空间内冻结的第一阶段目标来进一步学习世界知识,从而减少捷径学习。 InternVideo-Next 经过对公共、未标记视频的训练,在基准测试中取得了最先进的结果,并为通用视频表示学习提供了一条可扩展的路径 ...
现有的视频推理分割方法严重依赖单个特殊标记来表示关键帧或整个视频中的对象,不足以捕获空间复杂性和帧间运动。为了克服这些挑战,我们提出了 VRS-HQ,这是一种端到端视频推理分割方法,利用多模态大语言模型 (MLLM) 将丰富的时空特征注入到分层结构中,该 http URL 关键创新包括时间动态聚合 (TDA) 和 Token 驱动的关键帧选择 (TKS)。具体来说,我们设计了帧级 <SEG> 和时间级 <TAK> 标记,利用 MLLM 的自回归学习来有效捕获局部和全局信息。随后,我们应用基于相似性的加权融合和帧选择策略,然后利用 SAM2 执行关键帧分割和传播。为了提高关键帧定位精度,TKS 在推理过程中根据 SAM2 的遮挡分数过滤关键帧。 VRS-HQ 在 ReVOS 上实现了最先进的性能,在三个子集的 J&F 分数上超过了 VISA 5.9%/12.5%/9.1%。这些结果凸显了我们的方法强大的时间推理和分割能力。代码和模型权重将在 VRS-HQ 发布 ...
本文提出了一种利用多模态大语言模型(MLLM)进行参考视频对象分割(RefVOS)的新颖框架。以前基于 MLLM 的方法通常会陷入“Ref”和“VOS”之间的困境:它们要么专注于理解几个关键帧(全局推理),要么专注于跟踪连续帧上的对象(局部推理),并依赖外部 VOS 或帧选择器来缓解另一端的挑战。然而,我们的框架 GLUS 表明全局和局部一致性可以统一到单个视频分割 MLLM 中:一组稀疏的“上下文帧”提供全局信息,而连续的“查询帧”流进行局部对象跟踪。通过联合训练 MLLM 和预先训练的 VOS 内存库来同时消化短程和长程时间信息,进一步支持了这一点。为了提高 MLLM 有限上下文窗口内的信息效率,我们引入了对象对比学习来区分硬假阳性对象,并引入了自我完善的框架来识别关键帧并执行传播。通过共同整合这些见解,我们的 GLUS 提供了一个简单而有效的基准,在 MeViS 和 Ref-Youtube-VOS 基准上为 MLLM 实现了新的最先进水平。我们的项目页面位于此 https URL ...
参考视频对象分割(RVOS)旨在根据文本描述来分割视频中的对象,这需要融合多模态信息和时间动态感知。 Segment Anything Model 2 (SAM 2) 在各种视频分割任务中表现出了巨大的有效性。然而,其在离线 RVOS 中的应用面临着文本翻译成有效提示以及缺乏全局上下文感知的挑战。在本文中,我们提出了一种新颖的 RVOS 框架(称为 MPG-SAM 2)来应对这些挑战。具体来说,MPG-SAM 2 采用统一的多模态编码器来联合编码视频和文本特征,生成语义对齐的视频和文本嵌入以及多模态类标记。掩码先验生成器利用视频嵌入和类标记来创建目标对象和全局上下文的伪掩码。这些掩码作为密集提示以及多模态类标记作为稀疏提示输入到提示编码器中,为 SAM 2 生成准确的提示。为了向在线 SAM 2 提供全局视图,我们引入了分层全局历史聚合器,它允许 SAM 2 在像素和对象级别聚合目标对象的全局和历史信息,从而增强目标表示和时间一致性。对多个 RVOS 基准进行的大量实验证明了 MPG-SAM 2 的优越性以及我们提出的模块的有效性。该代码可从此 https URL 获取 ...
视频理解模型的可扩展性越来越受到大规模视频数据集高昂的存储和计算成本的限制。虽然数据合成提高了图像领域的数据效率,但由于普遍的时间冗余和复杂的时空动态,其向视频的扩展仍然具有挑战性。在这项工作中,我们发现了一个重要的见解:视频数据集中效率低下的主要根源不是样本间冗余,而是样本内帧级冗余。为了利用这种洞察力,我们引入了 VideoCompressa,这是一种用于视频数据合成的新颖框架,它将问题重新定义为动态潜在压缩。具体来说,VideoCompressa 联合优化可微分关键帧选择器(通过 Gumbel-Softmax 采样实现为轻量级 ConvNet),以识别信息最丰富的帧,并联合优化预训练的冻结变分自动编码器 (VAE),将这些帧压缩为紧凑、语义丰富的潜在代码。然后将这些潜在表示输入压缩网络,从而实现端到端反向传播。至关重要的是,关键帧选择器和合成潜在代码进行共同优化,以最大限度地保留任务相关信息。实验表明,我们的方法实现了前所未有的数据效率:在使用 ConvNets 的 UCF101 上,VideoCompressa 仅使用 0.13% 的原始数据就超过了全数据训练 2.34%,与传统合成方法相比加速超过 5800 倍。此外,当在 HMDB51 上微调 Qwen2.5-7B-VL 时,VideoCompressa 仅使用 0.41% 的训练数据即可匹配全数据性能,比零样本基线高出 10.61% ...
我们提出了分段任意模型 (SAM) 3,这是一个统一模型,可以根据概念提示检测、分割和跟踪图像和视频中的对象,我们将概念提示定义为简短的名词短语(例如“黄色校车”)、图像样本或两者的组合。提示概念分割 (PCS) 接受此类提示并返回所有匹配对象实例的分割掩码和唯一标识。为了推进 PCS,我们构建了一个可扩展的数据引擎,该引擎可生成具有 400 万个独特概念标签(包括图像和视频的硬底片)的高质量数据集。我们的模型由共享单个主干的图像级检测器和基于内存的视频跟踪器组成。识别和定位与存在头解耦,从而提高了检测精度。 SAM 3 将图像和视频 PCS 中现有系统的准确性提高了一倍,并改进了先前 SAM 在视觉分割任务上的能力。我们开源了 SAM 3 以及新的 Segment Anything with Concepts (SA-Co) 基准,以实现快速概念分割 ...