徐小五的文档

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

当前的多变量时间序列预测方法可以分为通道相关模型和通道无关模型。通道相关模型学习跨通道特征，但通常会过度拟合通道排序，这会妨碍添加或重新排序通道时的适应。通道无关模型独立对待每个通道以提高灵活性，但这忽略了通道间依赖性并限制了性能。为了解决这些限制，我们提出了 \textbf{CPiRi}，一个 \textbf{通道排列不变（CPI）} 框架，该框架从数据推断跨通道结构而不是记住固定顺序，从而无需重新训练即可在结构和分布共漂移的设置中进行部署。 CPiRi 将 \textbf{时空解耦架构} 与 \textbf{排列不变正则化训练策略} 结合起来：冻结的预训练时间编码器提取高质量的时间特征，轻量级空间模块学习内容驱动的通道间关系，而通道洗牌策略在训练期间强制执行 CPI。我们通过分析多元时间序列预测中的排列等方差进一步奠定了 CPiRi 的理论基础。多个基准测试的实验显示了最先进的结果。当通道顺序被打乱时，CPiRi 保持稳定，并且即使在仅一半通道上进行训练，也对看不见的通道表现出强大的归纳泛化能力，同时在大规模数据集上保持实用效率。源代码在此 https URL 发布 ...

0 0 0 0 2026/03/04 arXiv:2601.20318v2 徐小五

ComS2T: A complementary spatiotemporal learning system for data-adaptive model evolution

时空（ST）学习已成为实现智慧城市和可持续城市发展的关键技术。当前的 ST 学习模型通过各种空间卷积和时间演化块来捕获异质性。然而，快速的城市化导致城市数据和城市结构在短期内分布波动，导致现有方法面临泛化和数据适应性问题。尽管付出了努力，现有的方法仍无法处理新到达的观测结果，并且那些具有泛化能力的方法在重复训练中受到限制。受神经科学互补学习的推动，我们引入了一种名为 ComS2T 的基于提示的互补时空学习，以增强数据适应模型的进化。 ComS2T 将神经架构划分为用于巩固历史记忆的稳定新皮质和用于新知识更新的动态海马体。我们首先将两个不相交的结构分解为稳定和动态的权重，然后通过表征主要观测值的分布来训练空间和时间提示，以使提示能够适应新数据。这种数据自适应提示机制与两阶段训练过程相结合，有助于根据提示对神经架构进行微调，从而在测试过程中实现高效适应。大量实验验证了 ComS2T 在适应各种时空分布外场景同时保持高效推理能力的有效性 ...

0 0 0 0 2026/02/01 arXiv:2403.01738v1 徐小五

TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration

轨迹建模包括轨迹数据模式挖掘和未来预测等研究，在生活服务、城市交通、公共管理等领域有着广泛的应用。已经提出了许多方法来解决轨迹建模中的特定问题。然而，数据的异构性和轨迹任务的多样性使得有效且可靠的轨迹建模成为一项重要但极具挑战性的工作，即使对于领域专家来说也是如此。在本文中，我们提出了 TrajAgent，这是一种由大型语言模型提供支持的代理框架，旨在通过自动化建模促进稳健且高效的轨迹建模。该框架利用和优化不同的专业模型来有效地解决跨不同数据集的各种轨迹建模任务。在TrajAgent中，我们首先开发了UniEnv，一个具有统一数据和模型接口的执行环境，用于支持各种模型的执行和训练。在 UniEnv 的基础上，我们引入了一种代理工作流程，旨在跨各种轨迹任务和数据进行自动轨迹建模。此外，我们在基于LLM的代理和小型专业模型之间引入协作学习模式，以有效提高整个框架的性能。使用四个真实数据集对五个任务进行的广泛实验证明了 TrajAgent 在自动轨迹建模中的有效性，与基线方法相比，性能提高了 2.38%-69.91%。可以通过此 https URL 访问代码和数据 ...

0 0 0 0 2026/02/01 arXiv:2410.20445v5 徐小五

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

当前的多变量时间序列预测方法可以分为通道相关模型和通道无关模型。通道相关模型学习跨通道特征，但通常会过度拟合通道排序，这会妨碍添加或重新排序通道时的适应。通道无关模型独立对待每个通道以提高灵活性，但这忽略了通道间依赖性并限制了性能。为了解决这些限制，我们提出了 \textbf{CPiRi}，一个 \textbf{通道排列不变（CPI）} 框架，该框架从数据推断跨通道结构而不是记住固定顺序，从而无需重新训练即可在结构和分布共漂移的设置中进行部署。 CPiRi 将 \textbf{时空解耦架构} 与 \textbf{排列不变正则化训练策略} 结合起来：冻结的预训练时间编码器提取高质量的时间特征，轻量级空间模块学习内容驱动的通道间关系，而通道洗牌策略在训练期间强制执行 CPI。我们通过分析多元时间序列预测中的排列等方差进一步奠定了 CPiRi 的理论基础。多个基准测试的实验显示了最先进的结果。当通道顺序被打乱时，CPiRi 保持稳定，并且即使在仅一半通道上进行训练，也对看不见的通道表现出强大的归纳泛化能力，同时在大规模数据集上保持实用效率。源代码在此 https URL 发布 ...

0 0 0 0 2026/01/29 arXiv:2601.20318v1 徐小五

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

在本文中，我们探索了用于视频理解任务的预训练文本到视频（T2V）扩散模型产生的视觉表示。我们假设从预训练的生成 T2V 模型中学习的潜在表示封装了丰富的语义和连贯的时间对应关系，从而自然地促进视频理解。我们的假设通过经典的参考视频对象分割（R-VOS）任务得到验证。我们引入了一种称为“VD-IT”的新颖框架，该框架采用基于固定预训练 T2V 模型构建的专门设计组件进行定制。具体来说，VD-IT 使用文本信息作为条件输入，确保跨时间的语义一致性，以实现精确的时间实例匹配。它进一步将图像标记作为补充文本输入，丰富了特征集以生成详细而细致的掩模。此外，我们建议使用额外的噪声预测模块来预测视频特定噪声，而不是使用标准高斯噪声，这可以帮助保持特征保真度并提高分割质量。通过大量的实验，我们令人惊讶地观察到，与使用判别性图像/视频预任务进行预训练的常用视频主干网（例如 Video Swin Transformer）不同，固定生成 T2V 扩散模型在保持语义对齐和时间一致性方面表现出更好的潜力。在现有的标准基准上，我们的 VD-IT 取得了极具竞争力的结果，超越了许多现有的最先进的方法。该代码可从此 https URL 获取 ...

0 0 0 0 2026/01/21 arXiv:2403.12042v2 徐小五

Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model

参考视频对象分割（RVOS）旨在根据文本描述分割视频中的特定对象。我们观察到，最近的 RVOS 方法往往过度强调特征提取和时间建模，而相对忽视了分割头的设计。事实上，分割头设计仍有相当大的改进空间。为了解决这个问题，我们提出了一种时间条件参考视频对象分割模型，该模型创新性地集成了现有的分割方法，以有效增强边界分割能力。此外，我们的模型利用文本到视频的扩散模型进行特征提取。除此之外，我们删除了传统的噪声预测模块，以避免噪声的随机性降低分割精度，从而在提高性能的同时简化模型。最后，为了克服 VAE 有限的特征提取能力，我们设计了一个时间上下文掩模细化（TCMR）模块，该模块在不引入复杂设计的情况下显着提高了分割质量。我们在四个公共 RVOS 基准上评估我们的方法，它始终实现最先进的性能 ...

0 0 0 0 2026/01/21 arXiv:2508.13584v1 徐小五

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

推理细分的传统方法依赖于具有分类标签和简单描述的监督微调，从而限制了其不域的概括和缺乏明确的推理过程。为了解决这些局限性，我们提出了SEG-Zero，这是一个新颖的框架，该框架表现出了显着的普遍性，并通过认知强化得出了明确的经过思考的推理。 SEG-Zero引入了由推理模型和分割模型组成的解耦架构 ...

0 0 0 0 2026/01/21 arXiv:2503.06520v2 徐小五

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

推理视频对象分割是一项具有挑战性的任务，旨在根据复杂且隐式的文本查询从输入视频生成掩码序列。虽然现有的工作针对该任务微调了多模态大语言模型（MLLM），但在考虑到复杂的时间敏感查询的情况下，它们在视频输入中仍然失败，这表明它们在复杂场景中缺乏时空集成。在本文中，我们提出了 CoT-RVS，这是一种采用 MLLM 的零样本思想链（CoT）功能的新颖框架，通过时间语义推理来解决这些复杂的挑战：CoT-RVS 分析给定帧内可能与语言查询（语义）匹配的可见对象，并为每个对象选择一个可以在所有帧（时间）中轻松观察到的相应关键帧。值得注意的是，CoT-RVS 框架无需训练，并且与闭源 MLLM 兼容，可应用于推理视频实例分割。我们的框架的免训练功能进一步允许其扩展以处理在线视频流，其中 CoT 在测试时用于在更好的目标开始出现并变得可见时更新感兴趣的对象。我们通过显式和隐式查询对视频对象分割进行了广泛的实验。结果表明，CoT-RVS 在质量和数量上都明显优于以前的工作 ...

0 0 0 0 2026/01/21 arXiv:2505.18561v3 徐小五

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

语言、视觉和多模态预训练的大融合正在出现。在这项工作中，我们引入了一种通用的多模态基础模型 BEiT-3，它在视觉和视觉语言任务上实现了最先进的传输性能。具体来说，我们从主干架构、预训练任务和模型扩展三个方面推进大融合。我们引入了用于通用建模的多路 Transformer ，其中模块化架构能够实现深度融合和特定于模态的编码。基于共享主干，我们以统一的方式对图像（Imglish）、文本（英语）和图像文本对（“平行句子”）进行掩码“语言”建模。实验结果表明，BEiT-3 在对象检测（COCO）、语义分割（ADE20K）、图像分类（ImageNet）、视觉推理（NLVR2）、视觉问答（VQAv2）、图像字幕（COCO）和跨模态检索（Flickr30K，COCO）方面获得了最先进的性能 ...

0 0 0 0 2026/01/20 arXiv:2208.10442v2 徐小五

FantasyStyle: Controllable Stylized Distillation for 3D Gaussian Splatting

3DGS 在生成和编辑应用程序中的成功引发了人们对基于 3DGS 的风格迁移的日益浓厚的兴趣。然而，当前的方法仍然面临两大挑战：（1）多视图不一致常常导致风格冲突，导致外观平滑和失真； (2) 严重依赖 VGG 特征，很难将风格和内容与风格图像分开，常常导致内容泄漏和过度风格化。为了解决这些问题，我们引入了 \textbf{FantasyStyle}，这是一个基于 3DGS 的风格传输框架，也是第一个完全依赖扩散模型蒸馏的框架。它包括两个关键组成部分：（1）\textbf{多视图频率一致性}。我们通过将 3D 滤波器应用于多视图潜在噪声来增强跨视图一致性，有选择地减少低频分量以减轻风格化的先前冲突。 (2) \textbf{可控程式化蒸馏}。为了抑制风格图像的内容泄漏，我们引入了负面指导来排除不需要的内容。此外，我们还确定了分数蒸馏采样和 Delta 去噪分数在 3D 风格传输中的局限性，并相应地删除了重建项。基于这些见解，我们提出了一种可控的风格化蒸馏，利用负引导来更有效地优化 3D 高斯。大量的实验表明，我们的方法始终优于最先进的方法，在各种场景和风格中实现了更高的风格化质量和视觉真实感。该代码可从此 https URL 获取 ...

0 0 0 0 2026/01/20 arXiv:2508.08136v2 徐小五