以自我为中心的视频语言预训练是增进对第一人称场景中手部物体交互的理解的关键一步。尽管在现有测试平台上取得了成功,但我们发现当前的 EgoVLM 很容易被简单的修改所误导,例如更改交互描述中的动词或名词,而模型很难区分这些变化。这就提出了一个问题:EgoVLM 是否真正理解手部物体交互?为了解决这个问题,我们引入了一个名为 EgoHOIBench 的基准,揭示了当前以自我为中心的模型在面临此类挑战时的性能限制。我们将这种性能差距归因于细粒度监督不足,以及与名词相比,EgoVLM 在识别动词方面遇到更大的困难。为了解决这些问题,我们提出了一种新颖的非对称对比目标,名为 EgoNCE++。对于视频到文本的目标,我们通过使用大型语言模型生成负字幕或利用预训练词汇进行 HOI 相关单词替换来增强文本监督。对于文本到视频的目标,我们专注于保留以对象为中心的特征空间,该空间基于共享名词对视频表示进行聚类。大量实验表明,EgoNCE++ 显着增强了 EgoHOI 理解,从而提高了各种 EgoVLM 在多实例检索、动作识别和时间理解等任务中的性能。我们的代码可以在这个 https URL 上找到 ...
受益于捕获复杂时间模式的高能力,深度学习 (DL) 显着改进了时间序列预测 (TSF)。然而,由于时间序列对噪声和异常的固有脆弱性,深度模型往往会遭受严重的过度拟合。流行的深度学习范式通过MSE损失统一优化所有时间步,并无差异地学习那些不确定和异常的时间步,最终导致过度拟合。为了解决这个问题,我们提出了一种新颖的深度 TSF 选择性学习策略。具体来说,选择性学习筛选整个时间步的子集来计算优化中的 MSE 损失,引导模型关注可泛化的时间步,而忽略不可泛化的时间步。我们的框架引入了一种双掩模机制来定位时间步长:(1)利用残余熵来过滤不确定时间步长的不确定性掩模,以及(2)利用残余下界估计来排除异常时间步长的异常掩模。在八个真实世界数据集上进行的大量实验表明,选择性学习可以显着提高典型的最先进深度模型的预测性能,其中 Informer 的 MSE 降低了 37.4%,TimesNet 降低了 8.4%,iTransformer 降低了 6.5% ...
时间序列预测(TSF)是时间序列分析的核心问题。然而,随着时间序列数据集中的通道数量扩展到数千或更多(我们将其定义为高维时间序列预测 (HDTSF))的场景,它引入了重大的新建模挑战,而这些挑战通常不是传统 TSF 研究的主要焦点。 HDTSF 具有挑战性,因为通道相关性通常形成复杂且分层的模式。现有的 TSF 模型要么忽略这些相互作用,要么无法随着维度的增长而扩展。为了解决这个问题,我们提出了 U-Cast,一种依赖于通道的预测架构,它通过基于查询的创新关注来学习潜在的分层通道结构。为了解开高度相关的通道表示,U-Cast 在训练期间添加了全秩正则化。我们还发布了 Time-HD,这是大型、多样化、高维数据集的第一个基准。我们的理论表明,利用跨渠道信息可以降低预测风险,而 Time-HD 上的实验表明,U-Cast 在准确性和效率方面都超越了强大的基线。 U-Cast 和 Time-HD 共同为未来的 HDTSF 研究提供了坚实的基础 ...
受益于 Dense O2O 和 MAL 的简单性和有效性,DEIM 已成为实时 DETR 的主流训练框架,显着优于 YOLO 系列。在这项工作中,我们使用 DINOv3 功能对其进行了扩展,从而产生了 DEIMv2。 DEIMv2 涵盖从 X 到 Atto 的八种模型大小,涵盖 GPU、边缘和移动部署 ...
先前的研究调查了多模式大语言模型(MLLM)通过将其解释为视频来理解3D场景。这些方法通常取决于全面的3D数据输入,例如点云或重建的鸟类视图(BEV)图。在我们的研究中,我们通过直接从视频数据中提高MLLM在3D空间中理解和推理的能力来提高这一领域,而无需额外的3D输入 ...
最近的视频基础模型(例如SAM2)在提示视频细分方面表现出色,通过将口罩视为通用原始性。但是,许多现实世界的设置都需要无提醒的细分,旨在检测和跟踪没有外部提示的视频中的所有对象,从而使当今的景观在特定于任务的模型和管道上碎片。我们将视频分割重新出现为顺序掩码预测,类似于语言建模,并引入自回归的通用分段模型(AUSM),这是一种单个体系结构,既可以统一提示和未提及的视频细分 ...
多模式引用分割旨在基于文本或音频格式的引用表达式,旨在将视觉场景(例如图像,视频和3D场景)中的目标对象进行分割。此任务在需要基于用户说明的准确对象感知的实际应用中起着至关重要的作用。在过去的十年中,在卷积神经网络,变形金刚和大型语言模型的进步驱动的驱动下,它在多模式社区中引起了极大的关注,所有这些模型都大大提高了多模式感知能力 ...
最近的工作介绍了一种新颖的文本引导时间序列预测(TGTSF)任务。通过整合频道描述和动态新闻等文本线索,TGTSF解决了完全依赖历史数据的传统方法的关键限制。为了支持这项任务,我们提出了TGForecaster,这是一个强大的基线模型,它使用交叉注意机制融合文本线索和时间序列数据... ...
通用时间序列的出现预测模型已彻底改变了跨不同领域的零射击预测,但是数据多样性在训练这些模型中的关键作用仍然没有得到充实。现有的大规模时间序列数据集通常会遭受固有的偏见和不平衡分布的损失,从而导致次优模型性能和概括。为了解决这一差距,我们引入了BLAST,这是一种新型的预训练语料库,旨在通过平衡的采样策略来增强数据多样性 ...
多元时间序列数据通过利用跨多个维度的信息来确保在实际情况下的广泛适用性,为未来的预测提供了强大的框架。但是,它们的高维度和混合模式在建立历史和未来序列之间的可解释和明确映射方面以及提取长期特征依赖性方面面临着重大挑战。为了应对这些挑战,我们为多变量时间序列预测(名为MTS-Unmixer)提出了一个频道时间双重混合网络,该网络将整个系列分解为关键基础和系数,并在时间和频道维度上分解为关键基础和系数 ...