我们介绍了Inworld TTS-1,这是两个基于 Transformer 的自动回归文本到语音(TTS)模型的集合。我们最大的型号TTS-1-MAX具有8.8B参数,设计为苛刻应用中的最高质量和表现力 ...

0 0 0 0 2025/07/31 arXiv:2507.21138v1 rosyclouds

本文介绍了Step-Adio〜2,这是一种端到端的多模式大型语言模型,旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习(RL),Step-Adio 2可以在自动语音识别(ASR)和音频理解中实现有希望的表现。为了促进真正的端到端语音对话,Step-Audio 2将离散的音频 Token 的产生结合到语言建模中,从而大大提高了其对副语言信息(例如说话风格和情感)的响应能力 ...

0 0 0 0 2025/07/25 arXiv:2507.16632v2 rosyclouds

大型语言模型(LLMS)通过音频编解码器具有显着高级的音频处理,这些音频编解码器将音频转换为离散 Token ,从而使语言建模技术应用于音频数据。但是,传统的编解码器通常在高比特率或狭窄领域(例如语音)中运行,并且缺乏有效语言建模所需的语义线索。在解决这些挑战时,我们介绍了Semanticodec,这是一种新颖的编解码器,旨在将音频压缩为每秒不到一百个标记,包括语音,一般声音和音乐,而不会损害质量 ...

0 0 0 0 2025/07/11 arXiv:2405.00233v2 rosyclouds

我们介绍了过去的一种新型的端到端框架,该框架与信号重建一起共同对语音信息进行建模,从而消除了对外部预审预周化模型的需求。与以前依靠预算的自我监督模型的方法不同,过去使用监督的语音数据,通过辅助任务将域知识直接整合到 Token 化过程中。此外,我们介绍了过去的流媒体,因果变体,从而实现了实时语音应用程序 ...

0 0 0 0 2025/07/11 arXiv:2505.14470v2 rosyclouds

GPT-4O样大型多模型(LMM)的出现提高了整合文本,视觉和语音方式的探索,以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示,并将其馈入大型语言模型(LLM)骨架。虽然序列维耦合对于模态积分很简单,但它通常很大程度上依赖于大规模数据来学习模态对齐 ...

0 1 0 0 2025/07/09 arXiv:2506.13642v2 rosyclouds

我们介绍了Ace-Step,这是一种新型的音乐发电基础模型,它通过整体建筑设计克服了现有方法的关键局限性,并实现了最先进的性能。当前方法在发电速度,音乐连贯性和可控性之间面临固有的权衡。例如,基于LLM的模型(e ...

0 0 0 0 2025/07/02 arXiv:2506.00045v1 rosyclouds

当今,大型自动语音翻译系统缺乏关键功能,与人与人之间的对话相比,机器介导的沟通感觉无缝。在这项工作中,我们介绍了一个模型系列,该模型可以以流式传播方式端到端表达和多语言翻译。首先,我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...

0 0 0 0 2025/06/27 arXiv:2312.05187v1 rosyclouds

这项研究探讨了一种使用讽刺的跨语言数据集检测轻度认知障碍(MCI)的多语言音频自我监督学习模型。尽管使用BERT模型的基于语音转录的检测有效,但由于缺乏转录和时间信息而存在局限性。为了解决这些问题,该研究直接利用W2V-bert-2语音话语的功能 ...

0 0 0 0 2025/06/27 arXiv:2501.16201v1 rosyclouds

随着神经音频编解码器的快速发展,基于编解码的语音生成(COSG)系统已经变得非常强大。不幸的是,COSG还可以创建高度逼真的深层演讲,从而更容易模仿个人的声音并传播错误的信息。我们将COSG Systems生成的新兴的深层演讲称为CodeCfake ...

0 0 0 0 2025/06/25 arXiv:2501.08238v2 rosyclouds

大型音频语言模型(LALMS)具有明显高级的智能人类计算机相互作用,但他们对基于文本的输出的依赖限制了它们直接产生自然语音响应的能力,从而阻碍了无缝的音频相互作用。为了解决这个问题,我们介绍了step-audio-aqaa,这是一个完全端到端的LALM,旨在音频查询 - 审计答案(AQAA)任务。该模型集成了用于语言和语义特征提取的双重编码书的音频 Token ,一个1300亿个参数骨干LLM和用于高保真语音综合的神经声码器 ...

0 0 0 0 2025/06/17 arXiv:2506.08967v2 rosyclouds

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)