一译 —— 文档和论文翻译、对照阅读、讨论和社区

Transition Matching: Scalable and Flexible Generative Modeling

扩散和流匹配模型具有明显的高级媒体生成，但是它们的设计空间经过了充分的探索，有些限制了进一步的改进。同时，自回归（AR）模型，尤其是那些生成连续 Token 的模型，已成为统一文本和媒体生成的有希望的方向。本文介绍了过渡匹配（TM），这是一种新型离散时间，连续状态的生成范式，它统一和进步既可以扩散/流量模型又是连续的AR产生 ...

0 0 0 2025/07/02 arXiv:2506.23589v1 tea5

DuET: Dual Incremental Object Detection via Exemplar-Free Task Arithmetic

现实世界中的对象检测系统，例如自动驾驶和监视的系统，必须不断学习新的对象类别，并同时适应不断变化的环境条件。现有方法，类增量对象检测（CIOD）和域增量对象检测（DIOD）仅解决此挑战的一个方面。 CIOD在看不见的领域中挣扎，而DIOD在学习新课程时遭受了灾难性的遗忘，从而限制了其现实世界的适用性 ...

0 0 0 2025/07/02 arXiv:2506.21260v1 19396386025

Rethinking Generative Semantic Communication for Multi-User Systems with Large Language Models

6G中连接的设备的激增，典型的复杂任务需要多用户合作，例如智能农业和智能城市，对不可持续的传统沟通构成了重大挑战。幸运的是，蓬勃发展的人工智能技术和设备不断增长的计算能力提供了有希望的6G启用器：语义通信（SEMCOM）。但是，现有的基于深度学习的SEMCOM范式很难扩展到多用户方案，因为它的模型大小随着用户数量的增加及其与复杂的通信环境的兼容性有限 ...

0 0 0 2025/07/02 arXiv:2408.08765v3 1150501302

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

视觉语言导航（VLN）是开发可以遵循自然语言指令进行自然语言指令以在复杂的现实世界环境中导航的重要任务。与传统方法相比，大型预审预周审经模型在VLN的最新进展已大大改善了概括和指导基础。然而，尽管经过思考链（COT）推理在视觉问题回答等静态任务中表现出了成功，但推理策略在导航中的作用却没有被驱散 ...

0 0 0 2025/07/02 arXiv:2505.11886v3 xubiao

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

我们提出了空间librispeech，这是一个空间音频数据集，具有超过650个小时的19通道音频，一阶Ambisonics和可选的干扰器噪声。空间LibrisPeech专为机器学习模型培训而设计，其中包括用于源位置，说话方向，房间声学和几何形状的标签。通过增强8K+合成室中具有200K+模拟的声学条件的Librispeech样品来生成空间librispeech ...

0 0 0 2025/07/02 arXiv:2308.09514v1 wenwen

Interpretable Prototype-based Graph Information Bottleneck

图形神经网络（GNN）的成功导致需要理解其决策过程并为其预测提供解释，这导致了可解释的AI（XAI），该AI（XAI）为黑盒模型提供了透明的解释。最近，原型的使用成功地通过学习原型来成功提高了模型的解释性，以暗示影响预测的训练图。但是，这些方法倾向于从整个图中提供原型过多的信息，从而排除关键子结构或包含无关的子结构，这可以限制模型在下游任务中的可解释性和性能 ...

0 0 0 2025/07/02 arXiv:2310.19906v2 QingXiang

FGeo-HyperGNet: Geometric Problem Solving Integrating Formal Symbolic System and Hypergraph Neural Network

几何问题求解一直是自动推理和人工智能领域长期存在的挑战。这是我们系列作品中的第五篇文章，我们构建了一个神经符号系统来自动执行类似人类的几何演绎推理。符号部分是建立在FormalGeo之上的形式化系统，能够自动进行几何关系推理和代数计算，并将求解过程组织成以条件为超节点、定理为超边的解超树 ...

0 0 0 2025/07/02 arXiv:2402.11461v2 Dreamer

OmniGen2: Exploration to Advanced Multimodal Generation

在这项工作中，我们介绍了Omnigen2，这是一种多功能且开源的生成模型，旨在为各种生成任务提供统一的解决方案，包括文本对图像，图像编辑和文本生成。与Omnigen V1不同，Omnigen2采用了两种不同的文本和图像模式解码途径，利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型，而无需重新适应VAE输入，从而保留了原始的文本生成功能 ...

0 0 0 2025/07/02 arXiv:2506.18871v2 wonders

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）