一译 —— 文档和论文翻译、对照阅读、讨论和社区

Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models

本文介绍了Seewo的系统，用于多语言对话语音语言模型挑战（MLC-SLM）的两种轨道，均通过ASR（SD-ASR）解决自动语音识别（ASR）和扬声器诊断。我们介绍了一条多阶段的培训管道，该管道明确增强了ASR语音语言模型中的推理和自我纠正。我们的方法结合了课程学习，以获得渐进能力的获取，进行思想链数据增强，以促进中间反思，并通过可验证的奖励（RLVR）（RLVR）通过奖励驱动的优化进一步完善自我 ...

0 0 0 2025/06/23 arXiv:2506.13300v3 zhangqi33

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

 Transformer 体系结构已在许多自然语言处理任务中取得成功。但是，它在医疗视野中的应用仍未得到探索。在这项研究中，我们介绍了UTNET，这是一种简单而强大的混合 Transformer 结构，将自我发作整合到卷积神经网络中，以增强医学图像分割 ...

0 0 0 2025/06/23 arXiv:2107.00781v2 尼斯湖

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

GPT-4O样大型多模型（LMM）的出现提高了整合文本，视觉和语音方式的探索，以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示，并将其馈入大型语言模型（LLM）骨架。虽然序列维耦合对于模态积分很简单，但它通常很大程度上依赖于大规模数据来学习模态对齐 ...

0 0 0 2025/06/23 arXiv:2506.13642v1 zhangqi33

DeepVerse: 4D Autoregressive Video Generation as a World Model

世界模型是对人工通用情报（AGI）的重要组成部分，使智能代理能够通过模拟复杂的物理互动来预测未来的状态并计划行动。但是，现有的交互模型主要预测视觉观察，从而忽略了关键的隐藏状态，例如几何结构和空间连贯性。这会导致快速误差积累和时间不一致 ...

0 0 0 2025/06/23 arXiv:2506.01103v1 陆三七

On Embeddings for Numerical Features in Tabular Deep Learning

最近，类似 Transformer 的深度体系结构在表格数据问题上表现出强烈的性能。与传统模型不同，例如 ...

0 0 0 2025/06/23 arXiv:2203.05556v4 hokirn

Rethinking LLM-Based Recommendations: A Query Generation-Based, Training-Free Approach

现有的大型语言模型基于LLM的建议方法面临着几个挑战，包括处理大型候选池的效率低下，对提示中的项目顺序的敏感性（“中间”现象中的“丢失”现象）差的可伸缩性差，以及由于随机负面采样而导致的不切实际评估。为了解决这些问题，我们提出了一种询问方法，该方法利用LLMS生成个性化查询，以从整个候选人池中检索相关项目，从而消除了候选人预选的需求。可以将此方法集成到基于ID的建议系统中，而无需进行其他培训，通过 ...

0 0 0 2025/06/23 arXiv:2504.11889v1 wangluyi

Lang2LTL: Translating Natural Language Commands to Temporal Robot Task Specification

自然语言为程序机器人提供了强大的方式来执行时间任务。线性时间逻辑（LTL）为时间任务的形式描述提供了明确的语义。但是，现有方法无法准确，鲁棒地将英语句子转换为在看不见的环境中的等效LTL公式 ...

0 0 0 2025/06/23 arXiv:2302.11649v2 mencius

Audio-Sync Video Generation with Multi-Stream Temporal Control

音频本质上是时间的，并且与视觉世界紧密同步，使其成为可控视频生成（例如，电影）的自然对齐和表现力的控制信号 ...

0 0 0 2025/06/23 arXiv:2506.08003v1 viczn

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）