这项工作介绍了 MELA-TTS,这是一种用于端到端文本到语音合成的新型联合 Transformer 扩散框架。通过根据语言和说话人条件自回归生成连续的梅尔谱图帧,我们的架构消除了对语音标记化和多级处理管道的需要。为了解决连续特征建模的固有困难,我们提出了一种表示对齐模块,该模块在训练期间将 Transformer 解码器的输出表示与来自预训练 ASR 编码器的语义嵌入对齐。这种机制不仅加快了训练收敛速度,还增强了文本域和声学域之间的跨模态连贯性。综合实验表明,MELA-TTS 在多个评估指标上实现了最先进的性能,同时在离线和流合成模式下保持强大的零样本语音克隆功能。我们的结果为 TTS 中的连续特征生成方法建立了新的基准,为基于离散 Token 的范例提供了令人信服的替代方案 ...
尽管语音大语言模型取得了显着的进展,但仍然存在巨大的模态推理差距:它们在语音输入上的推理性能明显弱于文本。这种差距可能与 Transformer 层之间的表征漂移和长链推理中的行为偏差有关。为了解决这个问题,我们引入了 TARS,这是一种强化学习框架,通过不对称奖励设计来调整文本条件和语音条件轨迹。该框架采用两个密集且互补的信号:表示对齐(测量语音和文本条件轨迹之间的分层隐藏状态相似性)和行为对齐(评估生成的输出和参考文本完成之间的语义一致性)。在具有挑战性的推理基准(包括 MMSU 和 OBQA)上进行的实验表明,我们的方法显着缩小了模态推理差距,并在 7B 规模的语音 LLM 中实现了最先进的性能 ...
语音标记器是离散语音大型语言模型(语音 LLM)的基石。现有的分词器要么优先考虑语义编码,要么将语义内容与声学风格不可分割地融合在一起,要么实现不完全的语义声学分离。为了实现更好的解缠,我们提出了 DSA-Tokenizer,它通过不同的优化约束将语音显式解缠成离散的语义和声学标记。具体来说,语义标记由 ASR 监督以捕获语言内容,而声学标记则侧重于梅尔频谱图恢复以编码风格。为了消除两个序列之间的严格长度限制,我们引入了分层流匹配解码器,进一步提高了语音生成质量。此外,我们采用联合重建重组训练策略来强制这种分离。 DSA-Tokenizer 通过稳健的解缠实现高保真重建和灵活重组,从而促进语音 LLM 中的可控生成。我们的分析强调解开的标记化是未来语音建模的关键范例。音频样本可在此 https URL 获取。代码和模型将在论文被接受后公开 ...
基于离散 Token 的语音生成的最新进展凸显了 Token 到波形生成对于音频质量的重要性,特别是在实时交互中。将语义标记与流匹配 (FM) 集成的传统框架由于依赖全局感受野而难以实现流处理功能。此外,直接实现逐个 Token 流式语音生成通常会导致音频质量下降。为了应对这些挑战,我们提出了 StreamFlow,这是一种新颖的神经架构,可促进流与扩散 Transformer (DiT) 的匹配。为了减轻由于冗长的历史依赖关系而产生的长序列外推问题,我们设计了一种局部分块感受野策略。具体来说,序列首先被分割成块,然后我们引入逐块注意掩码,使当前块能够从前一个或后一个块接收信息。这些注意力掩模在不同的 DiT 块之间分层组合,以调节 DiT 的感受野。主观和客观实验结果都表明,我们的方法实现了与非流方法相当的性能,同时在语音质量方面超越了其他流方法,同时有效地管理了长序列生成期间的推理时间。此外,我们的方法实现了仅 180 毫秒的显着第一个数据包延迟。\footnote{语音样本:此 https URL} ...
在之前的工作中,我们介绍了 IndexTTS 2,这是一种零样本神经文本到语音基础模型,包含两个核心组件:基于 Transformer 的文本到语义 (T2S) 模块和非自回归语义到梅尔 (S2M) 模块,它们共同实现忠实的情感复制并建立第一个自回归持续时间可控的生成范式。在此基础上,我们推出了 IndexTTS 2.5,它通过四个关键改进显着增强了多语言覆盖率、推理速度和整体合成质量:1)语义编解码器压缩:我们将语义编解码器帧速率从 50 Hz 降低到 25 Hz,将序列长度减半,并大幅降低训练和推理成本; 2)架构升级:我们用更高效的基于Zipformer的建模架构替换了基于U-DiT的S2M模块主干,实现了显着的参数减少和更快的梅尔谱图生成; 3)多语言扩展:我们提出了三种显式跨语言建模策略:边界感知对齐、token级串联和指令引导生成,建立了零样本多语言情感TTS的实用设计原则,支持中文、英语、日语和西班牙语,即使没有目标语言情感训练数据也能实现稳健的情感传递; 4)强化学习优化:我们将GRPO应用于T2S模块的后训练中,提高发音的准确性和自然度。实验表明,IndexTTS 2.5不仅支持更广泛的语言覆盖范围,而且在相同的零样本设置下,可以复制未见过的语言的情感韵律。 IndexTTS 2.5 在 RTF 方面实现了 2.28 倍的改进,同时保持了与 IndexTTS 2 相当的 WER 和说话人相似性 ...
将语音表示为离散单元在支持下游口语处理任务方面具有许多好处。然而,在普通话等声调语言的语音合成中,这种方法的探索较少。我们对中文语音合成的初步实验揭示了“音调转换”的问题,即合成的语音包含正确的基本音节,但包含错误的声调。为了解决这个问题,我们提出了 ToneUnit 框架,它利用带有声调标签的注释数据作为 CTC 监督来学习普通话语音的声调感知离散语音单元。我们的研究结果表明,通过 TonUnit 获取的离散单元解决了合成中文语音中的“音调转换”问题,并在英语合成中产生了良好的结果。此外,实验结果表明有限标量量化增强了 ToneUnit 的有效性。值得注意的是,即使使用最少的注释数据,ToneUnit 也可以有效地工作 ...
我们推出了 VoiceCraft-X,这是一种自回归神经编解码器语言模型,它统一了 11 种语言的多语言语音编辑和零样本文本到语音 (TTS) 合成:英语、普通话、韩语、日语、西班牙语、法语、德语、荷兰语、意大利语、葡萄牙语和波兰语。 VoiceCraft-X 利用 Qwen3 大语言模型进行无音素跨语言文本处理,并采用新颖的标记重新排序机制(具有时间对齐的文本和语音标记)来将这两项任务作为单个序列生成问题来处理。该模型可生成高质量、自然的语音,在一个框架内无缝创建新音频或编辑现有录音。 VoiceCraft-X 在不同的语言环境中表现出强大的性能,即使每种语言的数据有限,也突显了统一自回归方法在推进复杂的、现实世界的多语言语音应用程序方面的强大功能。音频样本可在此 https URL 获取 ...
许多现有的音频处理和生成模型依赖于特定于任务的架构,导致开发工作分散且可扩展性有限。因此,有希望设计一个能够处理多项任务的统一框架,同时提供强大的指令和音频理解以及高质量的音频生成。这需要兼容的范式设计、强大的骨干网和高保真音频重建模块。为了满足这些要求,本技术报告介绍了 QuarkAudio,这是一种基于自回归 (AR) LM 的纯解码器生成框架,可统一多个任务。该框架包括一个统一的离散音频标记器 H-Codec,它将自监督学习 (SSL) 表示合并到标记化和重建过程中。我们进一步提出了对 H-Codec 的多项改进,例如动态帧率机制以及将音频采样率扩展到 48 kHz。 QuarkAudio 通过使用特定于任务的条件信息作为仅解码器 LM 的条件序列来统一任务,并以 AR 方式预测离散目标音频标记。该框架支持广泛的音频处理和生成任务,包括语音恢复(SR)、目标说话人提取(TSE)、语音分离(SS)、语音转换(VC)和语言查询音频源分离(LASS)。此外,我们将下游任务扩展到由自然语言指令引导的通用自由格式音频编辑(包括语音语义编辑和音频事件编辑)。实验结果表明,H-Codec 以低帧率实现了高质量音频重建,提高了下游音频生成的效率和性能,并且 QuarkAudio 在跨多个任务时提供了与最先进的特定任务或多任务系统竞争或相当的性能 ...
推理模型的最新进展通过扩展的思想链审议在文本和视觉领域取得了显着的成功。然而,音频语言模型中仍然存在一个令人困惑的现象:它们在很少或没有推理的情况下始终表现得更好,这就提出了一个基本问题:音频智能真的能从深思熟虑中受益吗?我们推出了 Step-Audio-R1,这是第一个成功解锁音频领域推理能力的音频推理模型。通过我们提出的模态推理蒸馏(MGRD)框架,Step-Audio-R1 学习生成与音频相关的推理链,这些推理链真正扎根于声学特征,而不是产生不连贯的审议幻觉。我们的模型展示了强大的音频推理能力,超越了 Gemini 2.5 Pro,并在涵盖语音、环境声音和音乐的全面音频理解和推理基准上实现了与最先进的 Gemini 3 Pro 相当的性能。这些结果表明,当适当锚定时,推理是一种跨模式的可转移能力,将扩展的审议从一种负担转变为音频智能的强大资产。通过建立第一个成功的音频推理模型,Step-Audio-R1 为构建真正的多模态推理系统开辟了新的途径,该系统能够深入思考所有感官模式 ...
最近的一些研究试图通过结合扩散和自回归模型来自动进行连续的语音表示,而无需离散的语音 Token ,但是它们经常在过度的计算负载或次优结果面临挑战。在这项工作中,我们提出了扩散 Transformer 自动回归建模(DITAR),这是一种基于补丁的自回旋框架,将语言模型与扩散 Transformer 相结合。这种方法显着增强了自回归模型对连续 Token 的功效,并减少了计算需求 ...