语音合成模型将书面文本转换为自然听起来的音频。虽然较早的模型仅限于单个演讲者,但最近的进步导致了零击系统的发展,这些系统以其他声音作为附加提示,从广泛的扬声器中产生逼真的语音。但是,他们仍然在模仿与培训数据集有很大差异的非阶段质量样本方面挣扎 ...
说话人自适应文本转语音(TTS)合成因其广泛的应用(例如个性化语音助理服务)而引起了广泛的关注。虽然已经提出了几种方法,但它们通常对目标语音样本的数量或质量表现出高度敏感性。为了解决这些限制,我们引入了 Stable-TTS,这是一种新颖的说话人自适应 TTS 框架,它利用高质量预训练数据集的一小部分(称为先验样本) ...
尽管最近的大量研究提出了使用大规模真实世界数据的零样本 TTS 的新框架,但关注零样本 TTS 清晰度的研究相对较少。零样本 TTS 需要付出额外的努力来确保清晰的发音和语音质量,因为它在推理阶段需要用新参数替换核心参数(扬声器嵌入或声音提示)。在本研究中,我们提出了一种专注于清晰度的零样本 TTS 模型,我们将其称为 Intelli-Z ...
TTS 中跨说话者风格迁移的目标是将具有表达性数据的源说话者的语音风格迁移到仅具有中性数据的目标说话者。在这种情况下,我们建议使用预先训练的歌声转换(SVC)模型将表达数据转换为目标说话者的声音。在转换过程中,我们应用基频 (F0) 匹配技术来减轻具有显着音色差异的扬声器之间的音调差异 ...
零样本文本转语音 (TTS) 合成显示出通过语音克隆实现个性化语音定制的巨大前景。然而,当前实现零样本 TTS 的方法严重依赖于大型模型规模和广泛的训练数据集,以确保在不同说话者之间获得令人满意的性能和通用性。这引起了对部署成本和数据安全的担忧 ...
由于需要解开音频中的说话者和风格信息,因此将跨说话者风格迁移纳入文本转语音 (TTS) 模型具有挑战性。在表达数据资源匮乏的场景下,语音转换(VC)可以为目标说话人生成表达性语音,然后用于训练 TTS 模型。然而,VC 模型的质量和风格迁移能力对于 TTS 模型的整体质量至关重要 ...
使用参考语音的表达性文本转语音(TTS)已被广泛研究以合成自然语音,但在获得良好表征的风格和提高模型泛化能力方面存在局限性。在这项研究中,我们提出了基于扩散的表达 TTS (DEX-TTS),这是一种声学模型,专为基于参考的语音合成而设计,具有增强的风格表示。基于通用扩散 TTS 框架,DEX-TTS 包括编码器和适配器来处理从参考语音中提取的风格 ...
扩大训练数据量的文本转语音 (TTS) 系统在零样本语音合成方面取得了显着改进。然而,这些系统有一定的局限性:它们需要大量的训练数据,这增加了成本,并且经常忽略韵律相似性。为了解决这些问题,我们提出了 MultiVerse,这是一种零样本多任务 TTS 系统,能够在零样本和跨语言条件下执行 TTS 或语音风格转换 ...
文本转语音 (TTS) 领域的最新进展表明,基于语言模型 (LM) 的系统可提供与其同行相比具有竞争力的性能。进一步的优化可以通过偏好对齐算法来实现,该算法调整 LM 以与奖励模型的偏好保持一致,从而提高生成内容的可取性。本研究对偏好对齐算法(特别是直接偏好优化 (DPO))如何增强基于 LM 的 TTS 进行了全面的实证评估 ...
最近,去噪扩散概率模型和生成分数匹配在复杂数据分布建模方面显示出巨大潜力,而随机微积分则为这些技术提供了统一的观点,允许灵活的推理方案。在本文中,我们介绍了 Grad-TTS,这是一种新颖的文本转语音模型,具有基于分数的解码器,通过逐渐变换编码器预测的噪声并通过单调对齐搜索与文本输入对齐来生成梅尔谱图。随机微分方程的框架帮助我们将传统的扩散概率模型推广到从具有不同参数的噪声中重建数据的情况,并允许通过明确控制声音质量和推理速度之间的权衡来使这种重建变得灵活 ...