推理模型的最新进展通过扩展的思想链审议在文本和视觉领域取得了显着的成功。然而,音频语言模型中仍然存在一个令人困惑的现象:它们在很少或没有推理的情况下始终表现得更好,这就提出了一个基本问题:音频智能真的能从深思熟虑中受益吗?我们推出了 Step-Audio-R1,这是第一个成功解锁音频领域推理能力的音频推理模型。通过我们提出的模态推理蒸馏(MGRD)框架,Step-Audio-R1 学习生成与音频相关的推理链,这些推理链真正扎根于声学特征,而不是产生不连贯的审议幻觉。我们的模型展示了强大的音频推理能力,超越了 Gemini 2.5 Pro,并在涵盖语音、环境声音和音乐的全面音频理解和推理基准上实现了与最先进的 Gemini 3 Pro 相当的性能。这些结果表明,当适当锚定时,推理是一种跨模式的可转移能力,将扩展的审议从一种负担转变为音频智能的强大资产。通过建立第一个成功的音频推理模型,Step-Audio-R1 为构建真正的多模态推理系统开辟了新的途径,该系统能够深入思考所有感官模式 ...

0 0 0 0 2025/11/27 arXiv:2511.15848v2 rosyclouds

最近的一些研究试图通过结合扩散和自回归模型来自动进行连续的语音表示,而无需离散的语音 Token ,但是它们经常在过度的计算负载或次优结果面临挑战。在这项工作中,我们提出了扩散 Transformer 自动回归建模(DITAR),这是一种基于补丁的自回旋框架,将语言模型与扩散 Transformer 相结合。这种方法显着增强了自回归模型对连续 Token 的功效,并减少了计算需求 ...

0 0 0 0 2025/11/03 arXiv:2502.03930v3 rosyclouds

文本到语音 (TTS) 合成的最新进展显着提高了语音表现力和自然度。然而,大多数现有系统都是针对单扬声器合成而定制的,在生成连贯的多扬声器对话语音方面存在不足。这份技术报告介绍了 SoulX-Podcast,这是一个专为播客式多轮、多扬声器对话语音生成而设计的系统,同时在传统 TTS 任务中也实现了最先进的性能 ...

0 0 0 0 2025/10/31 arXiv:2510.23541v2 rosyclouds

大型语言模型 (LLM) 的兴起正在重塑多模型模型,其中语音合成是一个突出的应用。然而,现有的方法通常没有充分利用这些模型的语言智能,通常无法利用其强大的指令跟踪功能。此限制阻碍了模型遵循文本指令进行可控文本转语音 (TTS) 的能力 ...

0 0 0 0 2025/10/24 arXiv:2509.26514v1 rosyclouds

当前的对话生成方法通常需要完整的对话文本,然后才能产生一个不可分割的语音,其中包含所有声音,使其不适合交互式聊天;此外,它们遭受了不稳定的合成,不准确的说话者过渡和不连贯的韵律。在这项工作中,我们介绍了FireredTTS-2,这是一种用于多演讲者对话的长形式流式TTS系统,通过可靠的扬声器切换和上下文感知的韵律发出稳定的自然语音。一个新的12 ...

0 0 0 0 2025/09/16 arXiv:2509.02020v2 rosyclouds

语音引导者是语音语言模型的基础组成部分,但是当前的设计表现出了几个局限性,包括:1)依赖多层残留矢量量化结构或高框架速率,2)依赖语义蒸馏的辅助预培训模型,以及3)对复杂两级训练过程的要求。在这项工作中,我们介绍了文本感知的扩散 Transformer 语音编解码器(Tadicodec),这是一种旨在克服这些挑战的新方法。 Tadicodec通过扩散自动编码器采用端到端的优化来进行量化和重建,同时将文本指南集成到扩散解码器中以增强重建质量并实现最佳压缩 ...

0 0 0 0 2025/09/15 arXiv:2508.16790v1 rosyclouds

哪种音频嵌入方法最能推广到无需微调的各种日常域中的各种下游任务? HEAR 2021 NEURIPS挑战的目的是开发通用音频表示,为在各种任务和场景中学习提供了强有力的基础。听到2021年使用基准套件评估音频表示,包括语音,环境声音和音乐。本着共享交流的精神,每个参与者都按照通用,开源和自由使用的通用API提交了音频嵌入模型 ...

0 1 0 0 2025/09/10 arXiv:2203.03022v3 rosyclouds

大规模的文本到语音(TTS)模型通常分为自回归和非自动回忆系统。尽管自回归系统在语音自然性方面具有某些优势,但它们的逐个代际生成机制使得很难精确控制综合语音的持续时间。这是需要严格视听同步的视频配音等应用程序中的关键限制 ...

0 0 0 0 2025/09/09 arXiv:2506.21619v2 rosyclouds

尽管扩散和自回旋(AR)模型具有明显的高级生成建模,但它们均具有不同的局限性。依靠因果关注的AR模型无法利用未来的环境并遭受缓慢的生成速度。相反,扩散模型与键值(KV)缓存作斗争 ...

0 0 0 0 2025/09/04 arXiv:2507.22746v2 rosyclouds

语音语言模型(SpeechLMS)接受语音输入并产生语音输出,与基于文本的大语言模型(LLMS)相比,可以更自然的人类计算机互动。开发语音L的传统方法受到无监督语音数据的可用性和并行语音文本数据的限制,这些数据的丰富性明显不如文本预训练数据,从而限制了它们作为LLMS的可扩展性。我们提出了一种新颖的方法来扩展语音文本预训练,以利用从文本语料库得出的大规模合成交织数据,从而消除了对平行语音文本数据集的需求 ...

0 0 0 0 2025/09/02 arXiv:2411.17607v2 rosyclouds