徐小五的文档

Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions?

以自我为中心的视频语言预训练是增进对第一人称场景中手部物体交互的理解的关键一步。尽管在现有测试平台上取得了成功，但我们发现当前的 EgoVLM 很容易被简单的修改所误导，例如更改交互描述中的动词或名词，而模型很难区分这些变化。这就提出了一个问题：EgoVLM 是否真正理解手部物体交互？为了解决这个问题，我们引入了一个名为 EgoHOIBench 的基准，揭示了当前以自我为中心的模型在面临此类挑战时的性能限制。我们将这种性能差距归因于细粒度监督不足，以及与名词相比，EgoVLM 在识别动词方面遇到更大的困难。为了解决这些问题，我们提出了一种新颖的非对称对比目标，名为 EgoNCE++。对于视频到文本的目标，我们通过使用大型语言模型生成负字幕或利用预训练词汇进行 HOI 相关单词替换来增强文本监督。对于文本到视频的目标，我们专注于保留以对象为中心的特征空间，该空间基于共享名词对视频表示进行聚类。大量实验表明，EgoNCE++ 显着增强了 EgoHOI 理解，从而提高了各种 EgoVLM 在多实例检索、动作识别和时间理解等任务中的性能。我们的代码可以在这个 https URL 上找到 ...

0 1 0 0 2025/11/22 arXiv:2405.17719v3 徐小五

Selective Learning for Deep Time Series Forecasting

受益于捕获复杂时间模式的高能力，深度学习 (DL) 显着改进了时间序列预测 (TSF)。然而，由于时间序列对噪声和异常的固有脆弱性，深度模型往往会遭受严重的过度拟合。流行的深度学习范式通过MSE损失统一优化所有时间步，并无差异地学习那些不确定和异常的时间步，最终导致过度拟合。为了解决这个问题，我们提出了一种新颖的深度 TSF 选择性学习策略。具体来说，选择性学习筛选整个时间步的子集来计算优化中的 MSE 损失，引导模型关注可泛化的时间步，而忽略不可泛化的时间步。我们的框架引入了一种双掩模机制来定位时间步长：（1）利用残余熵来过滤不确定时间步长的不确定性掩模，以及（2）利用残余下界估计来排除异常时间步长的异常掩模。在八个真实世界数据集上进行的大量实验表明，选择性学习可以显着提高典型的最先进深度模型的预测性能，其中 Informer 的 MSE 降低了 37.4%，TimesNet 降低了 8.4%，iTransformer 降低了 6.5% ...

0 0 0 0 2025/11/19 arXiv:2510.25207v1 徐小五

U-Cast: Learning Hierarchical Structures for High-Dimensional Time Series Forecasting

时间序列预测（TSF）是时间序列分析的核心问题。然而，随着时间序列数据集中的通道数量扩展到数千或更多（我们将其定义为高维时间序列预测 (HDTSF)）的场景，它引入了重大的新建模挑战，而这些挑战通常不是传统 TSF 研究的主要焦点。 HDTSF 具有挑战性，因为通道相关性通常形成复杂且分层的模式。现有的 TSF 模型要么忽略这些相互作用，要么无法随着维度的增长而扩展。为了解决这个问题，我们提出了 U-Cast，一种依赖于通道的预测架构，它通过基于查询的创新关注来学习潜在的分层通道结构。为了解开高度相关的通道表示，U-Cast 在训练期间添加了全秩正则化。我们还发布了 Time-HD，这是大型、多样化、高维数据集的第一个基准。我们的理论表明，利用跨渠道信息可以降低预测风险，而 Time-HD 上的实验表明，U-Cast 在准确性和效率方面都超越了强大的基线。 U-Cast 和 Time-HD 共同为未来的 HDTSF 研究提供了坚实的基础 ...

0 0 0 0 2025/11/12 arXiv:2507.15119v2 徐小五

Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions?

Selective Learning for Deep Time Series Forecasting

U-Cast: Learning Hierarchical Structures for High-Dimensional Time Series Forecasting

Real-Time Object Detection Meets DINOv3

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

Autoregressive Universal Video Segmentation Model

Multimodal Referring Segmentation: A Survey

Intervention-Aware Forecasting: Breaking Historical Limits from a System Perspective

BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models

MTS-UNMixers: Multivariate Time Series Forecasting via Channel-Time Dual Unmixing