个性签名 ...
近年来,自回归 Transformer 和 DDPM 的应用彻底改变了图像生成领域。这些方法将图像生成过程建模为逐步概率过程,并利用大量计算和数据来学习图像分布。这种提高性能的方法不必局限于图像 ...
多码本语音编解码器支持在 TTS 中应用大型语言模型 (LLM),但由于多序列预测而成为效率和鲁棒性的瓶颈。为了避免这个障碍,我们提出了 Single-Codec,一种单码本单序列编解码器,它采用解耦的 VQ-VAE 将语音解耦为时不变嵌入和语音丰富的离散序列。此外,编码器还通过以下方式得到增强:1) 使用 BLSTM 模块进行上下文建模,以利用时间信息;2) 混合采样模块,以减轻上采样和下采样带来的失真;3) 重采样模块,以鼓励离散单元携带更多语音信息 ...