我们介绍了Ace-Step,这是一种新型的音乐发电基础模型,它通过整体建筑设计克服了现有方法的关键局限性,并实现了最先进的性能。当前方法在发电速度,音乐连贯性和可控性之间面临固有的权衡。例如,基于LLM的模型(e ...
当今,大型自动语音翻译系统缺乏关键功能,与人与人之间的对话相比,机器介导的沟通感觉无缝。在这项工作中,我们介绍了一个模型系列,该模型可以以流式传播方式端到端表达和多语言翻译。首先,我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...
这项研究探讨了一种使用讽刺的跨语言数据集检测轻度认知障碍(MCI)的多语言音频自我监督学习模型。尽管使用BERT模型的基于语音转录的检测有效,但由于缺乏转录和时间信息而存在局限性。为了解决这些问题,该研究直接利用W2V-bert-2语音话语的功能 ...
随着神经音频编解码器的快速发展,基于编解码的语音生成(COSG)系统已经变得非常强大。不幸的是,COSG还可以创建高度逼真的深层演讲,从而更容易模仿个人的声音并传播错误的信息。我们将COSG Systems生成的新兴的深层演讲称为CodeCfake ...
大型音频语言模型(LALMS)具有明显高级的智能人类计算机相互作用,但他们对基于文本的输出的依赖限制了它们直接产生自然语音响应的能力,从而阻碍了无缝的音频相互作用。为了解决这个问题,我们介绍了step-audio-aqaa,这是一个完全端到端的LALM,旨在音频查询 - 审计答案(AQAA)任务。该模型集成了用于语言和语义特征提取的双重编码书的音频 Token ,一个1300亿个参数骨干LLM和用于高保真语音综合的神经声码器 ...
生成人工智能的最新进展显着改变了风格的文本到语音合成(Captts)的领域。但是,由于缺乏标准化的,全面的数据集以及对基于Captt构建的下游任务的有限研究,因此将Captt适应现实世界应用程序仍然具有挑战性。为了解决这些差距,我们介绍了Capspech,这是一种专为一系列与Captts相关的任务的新基准测试,包括与风格的文本对语音综合,具有声音事件(Captts-SE),强调的TTS(ACCCAPTTS),受到情感上的TTS(Emocaptts)(emocaptts)和spectseech sentts ins conttress ins contterts(contects insents insents insemtts syntts synttts contterts insytts) ...
本文通过对抗流匹配优化引入了周期涡流,这是一种高保真性和高效波形生成模型。最近,有条件流量匹配(CFM)生成模型已成功地用于波形生成任务,利用训练的单个矢量场估计目标。尽管这些模型可以生成高保真波形信号,但与基于GAN的模型相比,它们需要明显更多的ODE步骤,而基于GAN的模型只需要单一一代步骤 ...
全双工多模式大型语言模型(LLMS)提供了一个统一的框架,用于解决多样化的语音理解和发电任务,从而实现了更自然和无缝的人机对话。与传统的模块化对话AI系统不同,该系统将语音识别,理解和语音到语音生成分为不同的组件不同,多模式LLMS作为单端到端模型运行。这种简化的设计消除了跨组件的错误传播,并充分利用了嵌入在输入语音信号中的丰富的非语言信息 ...
加速扩散模型采样对于有效的AIGC部署至关重要。尽管基于分布匹配和轨迹匹配的扩散蒸馏方法将采样降低到一步很少,但它们在复杂的任务上却缺乏文本到图像生成等复杂任务。几步生成在速度和质量之间提供了更好的平衡,但是现有的方法面临持续的权衡:分配匹配缺乏灵活性多步抽样,而轨迹匹配通常会产生次优的图像质量 ...
实时,聪明和自然的语音互动是下一代人类计算机相互作用的重要组成部分。最近的进步展示了基于大语言模型(LLM)建立智能口头聊天机器人的潜力。在本文中,我们介绍了Llama-omni 2,这是一系列语言模型(SpeechLMS),范围为0 ...