生成人工智能的最新进展显着改变了风格的文本到语音合成(Captts)的领域。但是,由于缺乏标准化的,全面的数据集以及对基于Captt构建的下游任务的有限研究,因此将Captt适应现实世界应用程序仍然具有挑战性。为了解决这些差距,我们介绍了Capspech,这是一种专为一系列与Captts相关的任务的新基准测试,包括与风格的文本对语音综合,具有声音事件(Captts-SE),强调的TTS(ACCCAPTTS),受到情感上的TTS(Emocaptts)(emocaptts)和spectseech sentts ins conttress ins contterts(contects insents insents insemtts syntts synttts contterts insytts) ...

0 0 0 0 2025/06/12 arXiv:2506.02863v1 rosyclouds

本文通过对抗流匹配优化引入了周期涡流,这是一种高保真性和高效波形生成模型。最近,有条件流量匹配(CFM)生成模型已成功地用于波形生成任务,利用训练的单个矢量场估计目标。尽管这些模型可以生成高保真波形信号,但与基于GAN的模型相比,它们需要明显更多的ODE步骤,而基于GAN的模型只需要单一一代步骤 ...

0 0 0 0 2025/06/11 arXiv:2408.08019v1 rosyclouds

全双工多模式大型语言模型(LLMS)提供了一个统一的框架,用于解决多样化的语音理解和发电任务,从而实现了更自然和无缝的人机对话。与传统的模块化对话AI系统不同,该系统将语音识别,理解和语音到语音生成分为不同的组件不同,多模式LLMS作为单端到端模型运行。这种简化的设计消除了跨组件的错误传播,并充分利用了嵌入在输入语音信号中的丰富的非语言信息 ...

0 0 0 0 2025/06/06 arXiv:2411.18138v1 rosyclouds

加速扩散模型采样对于有效的AIGC部署至关重要。尽管基于分布匹配和轨迹匹配的扩散蒸馏方法将采样降低到一步很少,但它们在复杂的任务上却缺乏文本到图像生成等复杂任务。几步生成在速度和质量之间提供了更好的平衡,但是现有的方法面临持续的权衡:分配匹配缺乏灵活性多步抽样,而轨迹匹配通常会产生次优的图像质量 ...

0 1 0 0 2025/05/08 arXiv:2503.06674v2 rosyclouds

实时,聪明和自然的语音互动是下一代人类计算机相互作用的重要组成部分。最近的进步展示了基于大语言模型(LLM)建立智能口头聊天机器人的潜力。在本文中,我们介绍了Llama-omni 2,这是一系列语言模型(SpeechLMS),范围为0 ...

0 0 0 0 2025/05/07 arXiv:2505.02625v1 rosyclouds

我们提出了分段整流流(Perflow),这是一种基于流量的加速扩散模型的方法。 Perflow将生成流的采样过程分为几个时间窗口,并通过反射操作在每个间隔中拉直轨迹,从而接近分段线性流。 Perflow在几步一代中取得了出色的性能 ...

0 0 0 0 2025/04/30 arXiv:2405.07510v5 rosyclouds

大型语言模型(LLM)的最新进展激发了人们对将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模式与LLM的融合,特别是与文本有关的语音方式。本文调查了语音与LLM的集成,将方法分类为三种主要方法:基于文本的,基于潜在的基于主代表和基于音频的集成 ...

0 0 1 1 2025/03/29 arXiv:2502.19548v1 rosyclouds

大型语言模型 (LLM) 的功能极大地推动了音频生成领域的最新进展。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模,以及利用更大的数据集,并且通常使用声学编解码器(例如EnCodec)进行音频标记化。然而,这些编解码器最初是为音频压缩而设计的,这可能会导致音频 LLM 环境中的性能不佳 ...

0 0 1 2 2025/03/29 arXiv:2408.17175v3 rosyclouds

从观察数据中估算反事实的结果与许多应用程序有关(例如个性化医学) ...

0 0 0 0 2025/03/20 arXiv:2204.07258v2 rosyclouds

基于文本的大语言模型(LLM)的最新进展,尤其是在GPT系列和O1模型中,已经证明了扩展训练时间和推理时间计算的有效性。但是,利用LLM的当前最新TTS系统通常是多阶段,需要单独的模型(例如, ...

0 0 0 0 2025/03/03 arXiv:2502.04128v2 rosyclouds

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)