开放式耳语风格的语音模型(OWSM)项目已经使用学术规模的资源开发了一系列完全开放的语音基础模型,但他们的培训数据仍然不足。这项工作通过集成Yodas,Yodas是一个大规模的网络爬行数据集和创意共享许可证。但是,由于其野生性质,尤达斯的融合是非凡的,这引入了诸如不正确的语言标签和音频文本未对准之类的挑战 ...
最近的研究已研究到语音增强(SE)方法,这些方法利用了预训练模型的音频嵌入,与时间频率掩盖或信号预测技术有所不同。本文介绍了一种有效且可扩展的SE方法。我们的方法涉及最初使用预训练的AudioEncoder从嘈杂的语音中提取音频嵌入,然后通过紧凑的编码网络将其分解 ...
对比语言音频预处理(拍手)是一种弥合音频和文本域之间差距的广泛使用方法。当前的拍手方法可以用英语进行声音和音乐检索,而忽略了多语言口语内容。为了解决这个问题,我们介绍了通用语言音频预处理(GLAP),该音频预处理(GLAP)通过多语言和多域功能扩展拍手 ...
现有的大规模零射击文本到语音(TTS)模型具有较高的语音质量,但由于大量参数而导致推理速度缓慢。为了解决此问题,本文介绍了Zipvoice,这是一种基于紧凑的模型大小和快速推理速度的高质量流量匹配零击TTS模型。关键设计包括:1)基于Zipformer的流量匹配解码器,以在约束尺寸下保持足够的建模功能; 2)基于平均基于UPSPRING的初始语音文本对齐和基于Zipformer的文本编码器,以提高语音清晰度; 3)一种减少采样步骤并消除与无分类器指导相关的推理开销的流动蒸馏方法 ...
本文介绍了TTSOPS,这是一个完全自动化的闭环框架,用于从嘈杂的,未切割的网络尺度语音数据中构建多演讲者文本到语音(TTS)系统,通常称为“ Dark Data”,例如在线视频。传统的TTS培训管道需要具有高声学质量和准确的文本语音对齐方式进行精心策划的语料库,这严重限制了可扩展性,扬声器多样性和现实世界中的适用性。尽管最近的研究提出了基于声学质量的数据选择技术,但它们经常忽略两个关键方面:(1)现代TTS模型对噪声的固有性固有性,以及(2)感知低质量却有益的样本的潜在贡献 ...
我们介绍了条件感知的自我监督学习表示(CA-SSLR),这是一种通才调节模型,广泛地适用于各种语音处理任务。与为下游模型优化的标准微调方法相比,CA-SSLR集成了早期层中的语言和说话者嵌入,使SSL模型了解当前的语言和说话者的环境。这种方法在保留基本SSLR的完整性的同时降低了对输入音频功能的依赖 ...
流匹配表现出强大的生成能力,并已成为现代文本到语音(TTS)系统的核心组成部分。为了确保高质量的语音综合,在基于流量匹配的TTS模型的推断期间,无分类器指导(CFG)被广泛使用。但是,CFG会产生大量的计算成本,因为它需要两个正向通行证,这阻碍了其在实时场景中的适用性 ...
文本到语音(TTS)模型的最新进展是由大语言模型(LLM)的整合,增强语义理解和改善语音自然性的驱动的。但是,现有的基于LLM的TTS模型通常缺乏开源培训代码和有效的推理加速框架,从而限制了它们的可访问性和适应性。此外,没有针对播客方案专门优化公开可用的TTS模型,这些模型对语音交互应用的需求很高 ...
大型语言模型 (LLM) 彻底改变了自然语言处理,但由于集成音频和文本模式的复杂性,它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo,这是一种混合模态模型,可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法,Ichigo 将语音量化为离散标记,并针对语音和文本模式采用基于 Transformer 的统一架构 ...
多语言和跨语言自动语音识别(MCL-ASR)存在三种方法:语音或字形转录的监督预训练和自监督预训练。我们发现,到目前为止,带有语音监督的预训练对于 MCL-ASR 来说还没有得到充分重视,而从概念上讲,它更有利于不同语言之间的信息共享。本文探索了一种通过弱语音监督进行预训练以实现数据高效的 MCL-ASR 的方法,称为 Whistle ...