对比学习在多模式表示学习领域表现出色。在本文中,我们提出了一条对比的语言审计的管道,以通过将音频数据与自然语言描述相结合来开发音频表示。为了实现这一目标,我们首先发布了Laion-Audio-630k,这是来自不同数据源的633,526个音频对接的大量集合 ...

0 0 0 0 2025/01/26 arXiv:2211.06687v4 wenwen

近年来,随着深度神经网络(DNN)的成功,语音增强(SE)取得了令人瞩目的进展。然而,DNN 方法通常无法很好地泛化训练中未包含的看不见的环境噪声。为了解决这个问题,我们提出了“噪声标记”(NT),它是一组与 SE 系统联合训练的神经噪声模板 ...

0 0 0 0 2025/01/16 arXiv:2004.04001v1 wenwen

我们提出了一种用于语音识别的新型深度神经网络架构,该架构在深度神经网络声学模型中明确利用背景环境噪声的知识。深度神经网络用于预测系统使用时的声学环境。然后,在该网络的瓶颈层生成的判别嵌入与传统的声学特征连接起来,作为深度神经网络声学模型的输入 ...

0 0 0 0 2025/01/16 arXiv:1601.02553v2 wenwen

正确设置录音条件(包括麦克风类型和放置、室内声学和环境噪声)对于获得所需的语音声学特性至关重要。在本文中,我们提出了 Diff-R-EN-T,一种用于记录环境传输的扩散模型,它将输入语音转换为具有参考语音的记录条件,同时保留语音内容。我们的模型包括内容增强器、记录环境编码器和扩散解码器,扩散解码器利用增强器和编码器作为输入条件生成目标梅尔频谱图 ...

0 0 0 0 2025/01/15 arXiv:2401.08102v1 wenwen

说话人适应技术提供了强大的解决方案,可以为个人用户定制自动语音识别 (ASR) 系统。基于无监督模型的说话人自适应技术在数据密集型端到端 ASR 系统中的实际应用受到说话人级数据的稀缺和对转录错误的性能敏感性的阻碍。为了解决这些问题,使用一组紧凑且数据高效的说话人相关 (SD) 参数表示来促进最先进的 Conformer ASR 系统的说话人自适应训练和测试时无监督说话人自适应 ...

0 0 0 0 2025/01/15 arXiv:2302.07521v1 wenwen

自然语音的丰富变化源对当前的数据密集型语音识别技术提出了重大挑战。为了对说话者和环境水平的多样性进行建模,本文为 Conformer ASR 模型提出了一种新颖的贝叶斯因式分解说话者环境自适应训练和测试时间自适应方法。使用紧凑的隐藏输出变换分别对说话者和环境级别特征进行建模,然后将其线性或分层组合以表示任何说话者-环境组合 ...

0 0 0 0 2025/01/15 arXiv:2306.14608v1 wenwen

本研究旨在设计一种环境感知文本转语音 (TTS) 系统,该系统可以生成适合特定声学环境的语音。它还出于在 TTS 系统开发中利用来自异构源的大量语音音频数据的愿望。关键思想是将语音音频中的声学环境建模为数据可变性的一个因素,并将其作为基于神经网络的语音合成过程中的条件 ...

0 0 0 0 2025/01/15 arXiv:2110.03887v4 wenwen

本文介绍了 SaSLaW,这是一个自发对话语音语料库,其中包含说话者所说、所听、所看内容的同步录音。人类在面对面的语音通信中考虑不同的环境因素,然后控制自己的言语特征。能够适应这些音频环境的语音对话系统可以实现自然、无缝的通信 ...

0 0 0 0 2025/01/14 arXiv:2408.06858v1 wenwen

本文提出了一种基于增量解缠的环境感知零样本文本转语音 (TTS) 方法,称为 IDEA-TTS,该方法可以为看不见的说话者合成语音,同时保留给定环境参考语音的声学特征。 IDEA-TTS采用VITS作为TTS骨干。为了有效地解开环境、说话者和文本因素,我们提出了一种增量解开过程,其中环境估计器被设计为首先将环境频谱图分解为环境掩模和增强频谱图 ...

0 0 0 0 2025/01/14 arXiv:2412.16977v1 wenwen

我们提出了 VoiceDiT,这是一种多模式生成模型,用于根据文本和视觉提示生成环境感知的语音和音频。虽然将语音与文本对齐对于可理解的语音至关重要,但在嘈杂的条件下实现这种对齐仍然是该领域的一个重大且尚未充分探索的挑战。为了解决这个问题,我们提出了一种名为 VoiceDiT 的新型音频生成管道 ...

0 0 0 0 2025/01/14 arXiv:2412.19259v1 wenwen

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)