- 名称
- Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
- 描述
最近,去噪扩散概率模型和生成分数匹配在复杂数据分布建模方面显示出巨大潜力,而随机微积分则为这些技术提供了统一的观点,允许灵活的推理方案。在本文中,我们介绍了 Grad-TTS,这是一种新颖的文本转语音模型,具有基于分数的解码器,通过逐渐变换编码器预测的噪声并通过单调对齐搜索与文本输入对齐来生成梅尔谱图。随机微分方程的框架帮助我们将传统的扩散概率模型推广到从具有不同参数的噪声中重建数据的情况,并允许通过明确控制声音质量和推理速度之间的权衡来使这种重建变得灵活 ...