本文描述了房间声学挑战的综合,作为 ICASSP 2025 生成数据增强研讨会的一部分。该挑战定义了一个独特的生成任务,旨在提高房间脉冲响应数据集的数量和多样性,以便可以用于空间敏感的下游任务:扬声器距离估计。该挑战指出了精确测量或模拟许多房间的声学特性的技术难度 ...
近年来,端到端自动语音识别(ASR)系统已证明自己非常准确和高性能,但这些系统对于训练数据中不经常出现的实体名称仍然存在显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是用于各种自然语言处理 (NLP) 任务的多功能工具。在可以使用相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果 ...
使用神经音频编解码器模型对语音进行标记化是现代人工智能管道的重要组成部分,用于单独或在多模态环境中生成或理解语音。传统上,此类标记化模型集中于仅使用具有强归纳偏差的组件的低参数计数架构。在这项工作中,我们表明,通过扩展具有大量参数的 Transformer 架构来解决这个问题,并应用基于灵活的有限标量量化(FSQ)的瓶颈,可以在极低的比特率下达到最先进的语音质量-每秒 400 美元或 700 美元比特的速率 ...
我们提出了 Samba ASR,这是第一个最先进的自动语音识别 (ASR) 模型,利用新颖的 Mamba 架构作为编码器和解码器,建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同,它依赖于自我- 捕获依赖关系的注意力机制,Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系,实现了卓越的性能,此 http URL 解决了转换器的局限性,例如输入长度的二次缩放和处理难度远程依赖性,Samba ASR 实现了卓越的准确性,并且此 http URL 结果表明,Samba ASR 在各种标准基准测试中超越了现有的基于开源 Transformer 的 ASR 模型,将其确立为此 HTTP URL 基准数据集上的最新技术水平,在基准数据集上进行的评估显示了 Word 中的显着改进错误率 (WER),即使在资源匮乏的情况下也具有竞争力的性能此 http URL,Mamba 架构固有的计算效率和参数优化使 Samba ASR 成为各种 ASR 的可扩展且强大的解决方案此 http URL 的贡献包括开发用于自动语音识别 (ASR) 的新 Samba ASR 架构,展示了结构化状态空间模型 (SSM) 相对于基于 Transformer 的语音序列模型的优越性。此 http URL 提供了对公共基准的综合评估,展示了最先进的 (SOTA) 性能,并提出了对计算效率、噪声鲁棒性和序列的深入分析此 http URL 工作凸显了 Mamba SSM 作为无 Transformer 替代方案的可行性,可利用状态空间的进步实现高效、准确的此 http URL Samba ASR 重新定义了 ASR 性能标准,并为该领域的未来研究树立了新的基准 ...
我们提出 WHISPER-GPT:一种用于语音和音乐的生成大语言模型 (LLM),它允许我们作为单一架构的一部分同时处理连续音频表示和离散标记。利用神经压缩算法派生的离散音频标记的生成音频、语音和音乐模型出现了巨大的增长 ...
大型语言模型 (LLM) 在各种 NLP 任务中展示了卓越的性能,并且它们与语音编码器的集成正在迅速成为自动语音识别 (ASR) 领域的主导趋势。之前的工作主要集中在利用 LLM 进行英语和中文语音识别。然而,它们在资源匮乏的环境中解决语音识别挑战的潜力仍未得到充分开发 ...
基于注意力的编码器-解码器,例如Transformer 及其变体以自回归 (AR) 方式生成输出序列 ...
连接主义时间分类 (CTC) 是一种广泛使用的自动语音识别 (ASR) 方法,以其简单性和计算效率而闻名。然而,与结合 CTC 和基于注意力的编码器-解码器 (CTC/AED) 的传感器或系统相比,它的识别性能通常较差。在这项工作中,我们提出了一致性正则化 CTC (CR-CTC),它强制从输入语音梅尔频谱图的不同增强视图获得的两个 CTC 分布之间的一致性 ...
生成错误校正 (GEC) 已成为一种强大的后处理方法,可增强自动语音识别 (ASR) 系统的性能。然而,我们发现 GEC 模型很难泛化到训练期间遇到的特定类型的错误之外,从而限制了它们在测试时纠正新的、未见过的错误的能力,特别是在域外 (OOD) 场景中。这种现象随着命名实体(NE)而放大,除了关于 NE 的上下文信息或知识不足之外,新的 NE 不断出现 ...
神经音频编解码器 Token 是基于语音语言模型 (SLM) 的语音生成的基本构建块。然而,对于编解码系统如何影响SLM的语音生成性能还没有系统的了解。在这项工作中,我们检查 SLM 框架内用于语音生成的编解码器 Token ,为有效的编解码器设计提供见解 ...