大型语言模型(LLM)的最新进展激发了人们对将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模式与LLM的融合,特别是与文本有关的语音方式。本文调查了语音与LLM的集成,将方法分类为三种主要方法:基于文本的,基于潜在的基于主代表和基于音频的集成 ...

0 0 1 1 2025/03/29 arXiv:2502.19548v1 rosyclouds

大型语言模型 (LLM) 的功能极大地推动了音频生成领域的最新进展。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模,以及利用更大的数据集,并且通常使用声学编解码器(例如EnCodec)进行音频标记化。然而,这些编解码器最初是为音频压缩而设计的,这可能会导致音频 LLM 环境中的性能不佳 ...

0 0 1 2 2025/03/29 arXiv:2408.17175v3 rosyclouds

从观察数据中估算反事实的结果与许多应用程序有关(例如个性化医学) ...

0 0 0 0 2025/03/20 arXiv:2204.07258v2 rosyclouds

基于文本的大语言模型(LLM)的最新进展,尤其是在GPT系列和O1模型中,已经证明了扩展训练时间和推理时间计算的有效性。但是,利用LLM的当前最新TTS系统通常是多阶段,需要单独的模型(例如, ...

0 0 0 0 2025/03/03 arXiv:2502.04128v2 rosyclouds

扩散模型和流程匹配模型通过学习将噪声传输到数据来生成多样化和逼真的图像。但是,这些模型的采样涉及在许多神经网络通行证上进行迭代性降解,从而使产生缓慢而昂贵。以前的加速采样方法需要复杂的培训方案,例如多个培训阶段,多个网络或脆弱的时间表 ...

0 0 1 1 2025/02/21 arXiv:2410.12557v1 rosyclouds

声学背景在自然对话中起着至关重要的作用。它提供了上下文并帮助听众理解环境,但是强大的背景使听众很难理解口语。这些背景的适当处理与情况有关:尽管有必要删除背景以确保语音清晰度,但保留背景有时对于维持语音的上下文完整性至关重要 ...

0 0 0 0 2025/02/17 arXiv:2502.07345v1 rosyclouds

语音合成模型将书面文本转换为自然听起来的音频。虽然较早的模型仅限于单个演讲者,但最近的进步导致了零击系统的发展,这些系统以其他声音作为附加提示,从广泛的扬声器中产生逼真的语音。但是,他们仍然在模仿与培训数据集有很大差异的非阶段质量样本方面挣扎 ...

0 0 0 0 2025/02/15 arXiv:2502.07562v1 rosyclouds

说话人自适应文本转语音(TTS)合成因其广泛的应用(例如个性化语音助理服务)而引起了广泛的关注。虽然已经提出了几种方法,但它们通常对目标语音样本的数量或质量表现出高度敏感性。为了解决这些限制,我们引入了 Stable-TTS,这是一种新颖的说话人自适应 TTS 框架,它利用高质量预训练数据集的一小部分(称为先验样本) ...

0 0 0 0 2025/01/21 arXiv:2412.20155v1 rosyclouds

尽管最近的大量研究提出了使用大规模真实世界数据的零样本 TTS 的新框架,但关注零样本 TTS 清晰度的研究相对较少。零样本 TTS 需要付出额外的努力来确保清晰的发音和语音质量,因为它在推理阶段需要用新参数替换核心参数(扬声器嵌入或声音提示)。在本研究中,我们提出了一种专注于清晰度的零样本 TTS 模型,我们将其称为 Intelli-Z ...

0 0 0 0 2025/01/20 arXiv:2401.13921v1 rosyclouds

TTS 中跨说话者风格迁移的目标是将具有表达性数据的源说话者的语音风格迁移到仅具有中性数据的目标说话者。在这种情况下,我们建议使用预先训练的歌声转换(SVC)模型将表达数据转换为目标说话者的声音。在转换过程中,我们应用基频 (F0) 匹配技术来减轻具有显着音色差异的扬声器之间的音调差异 ...

0 0 0 0 2025/01/20 arXiv:2410.05620v1 rosyclouds

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)