借助最近促进照片现实图像综合的生成模型,合成图像的扩散也对社交平台产生了某些负面影响,从而提出了开发有效探测器的紧急情况。当前的合成图像检测(SID)管道主要致力于制定通用伪影特征,并伴随着有关SID训练范式的监督。在本文中,我们重新检查了SID问题,并确定了当前训练范式中的两个普遍偏见,即 ...
长期的视频理解仍然是多模式大语言模型(MLLM)的基本挑战,尤其是在需要精确的时间推理和事件本地化的任务中。现有方法通常采用统一的框架采样,并依靠隐式位置编码来建模时间顺序。但是,这些方法在远程依赖方面遇到了困难,导致关键的信息丢失并降低时间理解 ...
尽管在视觉理解和基于语言的推理中表现出色,但视觉语言模型(VLM)与需要集成感知和符号计算的任务斗争。我们通过可视方程求解研究了这种限制,其中数学方程嵌入了图像中,变量由对象图标表示,并且必须通过计数来推断系数。当VLMS在文本方程式上表现良好时,它们在视觉扎根的对应方面失败 ...
小组模棱两可的卷积(GCONV)使模型探索数据中的基本对称性,从而提高性能。但是,现实世界的场景通常偏离由物理排列引起的理想对称系统,其特征是对称群的非平凡作用,导致影响输出的不对称,这是一种称为对称性破坏的现象。基于GCONV的传统方法受小组空间内的刚性操作规则的约束,假设数据在有限的小组转换后仍然严格对称性 ...
用实例感知语义和几何信息代表3D环境对于动态环境中的互动感知机器人至关重要。然而,由于传感器噪声,实例细分和跟踪错误以及对象的动态运动,创建这样的表示形式构成了挑战。本文介绍了一个基于粒子的新型实例 - 感知语义占用图,以应对这些挑战 ...
激光点云分析是3D计算机视觉的核心任务,尤其是自动驾驶。但是,由于单扫激圈云中严重的稀疏性和噪声干扰,精确的语义分割是非平凡的。在本文中,我们提出了一个新型的稀疏点云点云语义分割框架,并在上下文形状的先验中辅助 ...
当前自动驾驶中的当前感知模型在很大程度上依赖于标有3D数据的大规模,这既昂贵又耗时。这项工作提出了一种解决方案,以利用蒙版自动编码器(MAE)对大规模未标记的户外激光雷达点云进行预训练,以减少对标记的3D训练数据的依赖。虽然现有的掩盖点自动编码方法主要集中于小规模的室内点云或基于支柱的大规模室外激光雷达数据,但我们的方法引入了一种新的自助式掩盖的掩盖占用预训练方法,称为占用率,专门为Voxel基于 ...
索引讲故事在视频游戏中越来越受欢迎,叙事通过零散的线索展开。这种方法促进了玩家生成的内容和讨论,因为故事口译员将这些分散元素的总体叙述融合在一起。但是,线索的零散和非线性性质使系统的分类和解释具有挑战性,有可能阻碍有效的故事重建和创造性参与 ...