arxiv Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement

名称
Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement
首页
https://yiyibooks.cn/arxiv/2501.08566v1/index.html
原始地址
https://arxiv.org/abs/2501.08566v1
描述
零样本文本转语音 (TTS) 合成显示出通过语音克隆实现个性化语音定制的巨大前景。然而,当前实现零样本 TTS 的方法严重依赖于大型模型规模和广泛的训练数据集,以确保在不同说话者之间获得令人满意的性能和通用性。这引起了对部署成本和数据安全的担忧 ...