大型语言模型(LLMS)通过音频编解码器具有显着高级的音频处理,这些音频编解码器将音频转换为离散 Token ,从而使语言建模技术应用于音频数据。但是,传统的编解码器通常在高比特率或狭窄领域(例如语音)中运行,并且缺乏有效语言建模所需的语义线索。在解决这些挑战时,我们介绍了Semanticodec,这是一种新颖的编解码器,旨在将音频压缩为每秒不到一百个标记,包括语音,一般声音和音乐,而不会损害质量 ...
我们介绍了过去的一种新型的端到端框架,该框架与信号重建一起共同对语音信息进行建模,从而消除了对外部预审预周化模型的需求。与以前依靠预算的自我监督模型的方法不同,过去使用监督的语音数据,通过辅助任务将域知识直接整合到 Token 化过程中。此外,我们介绍了过去的流媒体,因果变体,从而实现了实时语音应用程序 ...
GPT-4O样大型多模型(LMM)的出现提高了整合文本,视觉和语音方式的探索,以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示,并将其馈入大型语言模型(LLM)骨架。虽然序列维耦合对于模态积分很简单,但它通常很大程度上依赖于大规模数据来学习模态对齐 ...
我们介绍了Ace-Step,这是一种新型的音乐发电基础模型,它通过整体建筑设计克服了现有方法的关键局限性,并实现了最先进的性能。当前方法在发电速度,音乐连贯性和可控性之间面临固有的权衡。例如,基于LLM的模型(e ...
当今,大型自动语音翻译系统缺乏关键功能,与人与人之间的对话相比,机器介导的沟通感觉无缝。在这项工作中,我们介绍了一个模型系列,该模型可以以流式传播方式端到端表达和多语言翻译。首先,我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...
这项研究探讨了一种使用讽刺的跨语言数据集检测轻度认知障碍(MCI)的多语言音频自我监督学习模型。尽管使用BERT模型的基于语音转录的检测有效,但由于缺乏转录和时间信息而存在局限性。为了解决这些问题,该研究直接利用W2V-bert-2语音话语的功能 ...
随着神经音频编解码器的快速发展,基于编解码的语音生成(COSG)系统已经变得非常强大。不幸的是,COSG还可以创建高度逼真的深层演讲,从而更容易模仿个人的声音并传播错误的信息。我们将COSG Systems生成的新兴的深层演讲称为CodeCfake ...
大型音频语言模型(LALMS)具有明显高级的智能人类计算机相互作用,但他们对基于文本的输出的依赖限制了它们直接产生自然语音响应的能力,从而阻碍了无缝的音频相互作用。为了解决这个问题,我们介绍了step-audio-aqaa,这是一个完全端到端的LALM,旨在音频查询 - 审计答案(AQAA)任务。该模型集成了用于语言和语义特征提取的双重编码书的音频 Token ,一个1300亿个参数骨干LLM和用于高保真语音综合的神经声码器 ...
生成人工智能的最新进展显着改变了风格的文本到语音合成(Captts)的领域。但是,由于缺乏标准化的,全面的数据集以及对基于Captt构建的下游任务的有限研究,因此将Captt适应现实世界应用程序仍然具有挑战性。为了解决这些差距,我们介绍了Capspech,这是一种专为一系列与Captts相关的任务的新基准测试,包括与风格的文本对语音综合,具有声音事件(Captts-SE),强调的TTS(ACCCAPTTS),受到情感上的TTS(Emocaptts)(emocaptts)和spectseech sentts ins conttress ins contterts(contects insents insents insemtts syntts synttts contterts insytts) ...
本文通过对抗流匹配优化引入了周期涡流,这是一种高保真性和高效波形生成模型。最近,有条件流量匹配(CFM)生成模型已成功地用于波形生成任务,利用训练的单个矢量场估计目标。尽管这些模型可以生成高保真波形信号,但与基于GAN的模型相比,它们需要明显更多的ODE步骤,而基于GAN的模型只需要单一一代步骤 ...