近年来,自回归 Transformer 和 DDPM 的应用彻底改变了图像生成领域。这些方法将图像生成过程建模为逐步概率过程,并利用大量计算和数据来学习图像分布。这种提高性能的方法不必局限于图像 ...

0 0 0 0 2024/09/12 arXiv:2305.07243v2 rosyclouds

多码本语音编解码器支持在 TTS 中应用大型语言模型 (LLM),但由于多序列预测而成为效率和鲁棒性的瓶颈。为了避免这个障碍,我们提出了 Single-Codec,一种单码本单序列编解码器,它采用解耦的 VQ-VAE 将语音解耦为时不变嵌入和语音丰富的离散序列。此外,编码器还通过以下方式得到增强:1) 使用 BLSTM 模块进行上下文建模,以利用时间信息;2) 混合采样模块,以减轻上采样和下采样带来的失真;3) 重采样模块,以鼓励离散单元携带更多语音信息 ...

0 0 0 0 2024/09/12 arXiv:2406.07422v1 rosyclouds

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)