当前的对话生成方法通常需要完整的对话文本,然后才能产生一个不可分割的语音,其中包含所有声音,使其不适合交互式聊天;此外,它们遭受了不稳定的合成,不准确的说话者过渡和不连贯的韵律。在这项工作中,我们介绍了FireredTTS-2,这是一种用于多演讲者对话的长形式流式TTS系统,通过可靠的扬声器切换和上下文感知的韵律发出稳定的自然语音。一个新的12 ...
语音引导者是语音语言模型的基础组成部分,但是当前的设计表现出了几个局限性,包括:1)依赖多层残留矢量量化结构或高框架速率,2)依赖语义蒸馏的辅助预培训模型,以及3)对复杂两级训练过程的要求。在这项工作中,我们介绍了文本感知的扩散 Transformer 语音编解码器(Tadicodec),这是一种旨在克服这些挑战的新方法。 Tadicodec通过扩散自动编码器采用端到端的优化来进行量化和重建,同时将文本指南集成到扩散解码器中以增强重建质量并实现最佳压缩 ...
哪种音频嵌入方法最能推广到无需微调的各种日常域中的各种下游任务? HEAR 2021 NEURIPS挑战的目的是开发通用音频表示,为在各种任务和场景中学习提供了强有力的基础。听到2021年使用基准套件评估音频表示,包括语音,环境声音和音乐。本着共享交流的精神,每个参与者都按照通用,开源和自由使用的通用API提交了音频嵌入模型 ...
大规模的文本到语音(TTS)模型通常分为自回归和非自动回忆系统。尽管自回归系统在语音自然性方面具有某些优势,但它们的逐个代际生成机制使得很难精确控制综合语音的持续时间。这是需要严格视听同步的视频配音等应用程序中的关键限制 ...
尽管扩散和自回旋(AR)模型具有明显的高级生成建模,但它们均具有不同的局限性。依靠因果关注的AR模型无法利用未来的环境并遭受缓慢的生成速度。相反,扩散模型与键值(KV)缓存作斗争 ...
语音语言模型(SpeechLMS)接受语音输入并产生语音输出,与基于文本的大语言模型(LLMS)相比,可以更自然的人类计算机互动。开发语音L的传统方法受到无监督语音数据的可用性和并行语音文本数据的限制,这些数据的丰富性明显不如文本预训练数据,从而限制了它们作为LLMS的可扩展性。我们提出了一种新颖的方法来扩展语音文本预训练,以利用从文本语料库得出的大规模合成交织数据,从而消除了对平行语音文本数据集的需求 ...
语音语言模型(SLM)为统一语音和文本理解和产生提供了有希望的途径。但是,在实现有效的跨模式一致性和高质量的语音产生方面仍然存在挑战。在这项工作中,我们系统地研究语音 Token 设计在以LLM为中心的SLM中的作用,并通过语音头和扬声器建模增强 ...
我们介绍了Inworld TTS-1,这是两个基于 Transformer 的自动回归文本到语音(TTS)模型的集合。我们最大的型号TTS-1-MAX具有8.8B参数,设计为苛刻应用中的最高质量和表现力 ...
本文介绍了Step-Adio〜2,这是一种端到端的多模式大型语言模型,旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习(RL),Step-Adio 2可以在自动语音识别(ASR)和音频理解中实现有希望的表现。为了促进真正的端到端语音对话,Step-Audio 2将离散的音频 Token 的产生结合到语言建模中,从而大大提高了其对副语言信息(例如说话风格和情感)的响应能力 ...
大型语言模型(LLMS)通过音频编解码器具有显着高级的音频处理,这些音频编解码器将音频转换为离散 Token ,从而使语言建模技术应用于音频数据。但是,传统的编解码器通常在高比特率或狭窄领域(例如语音)中运行,并且缺乏有效语言建模所需的语义线索。在解决这些挑战时,我们介绍了Semanticodec,这是一种新颖的编解码器,旨在将音频压缩为每秒不到一百个标记,包括语音,一般声音和音乐,而不会损害质量 ...