自学学习(SSL)在与语音有关的任务中取得了巨大成功。虽然 Transformer 和构象体架构主导了SSL骨架,但在自动语音识别(ASR)中表现出色的Zipformer之类的编码器在SSL中仍未探索。同时,在现有的SSL培训框架内(例如FairSeq)内的数据处理中的效率低下,在管理培训数据的不断增长时构成了挑战 ...
在本文中,我们提出了一种新的方法,用于开发一种可以有效处理印地语查询的英语自动语音识别(ASR)系统,而不会损害其在英语上的性能。我们提出了一种新颖的声学模型(AM),称为“注意”(SHA)模型,具有跨语言共享的隐藏层,而特定于语言的投影层则通过自我发挥作用机制组合。该机制根据输入数据估算每种语言的权重,并相应地称重相应的语言投影层 ...
理解特定于域的定理通常不仅需要基于文本的推理。通过结构化的视觉解释有效沟通对于更深入的理解至关重要。尽管大型语言模型(LLMS)在基于文本的定理推理中表现出很强的性能,但它们产生连贯和教学意义的视觉解释的能力仍然是一个开放的挑战。在这项工作中,我们介绍了Theoremememplainagent,这是一种使用Manim Animations生成长格式定理视频(超过5分钟)的代理方法 ...
我们提出了一种新型的自动建模方法,用于语音合成,将各种自动编码器(VAE)与多模式潜在空间和使用高斯混合模型(GMM)作为条件概率分布相结合。与以前依赖残留向量量化的方法不同,我们的模型利用了VAE潜在空间的连续语音表示,从而大大简化了训练和推理管道。我们还引入了一种随机的单调对准机制来强制执行严格的单调对准 ...
本文描述了房间声学挑战的综合,作为 ICASSP 2025 生成数据增强研讨会的一部分。该挑战定义了一个独特的生成任务,旨在提高房间脉冲响应数据集的数量和多样性,以便可以用于空间敏感的下游任务:扬声器距离估计。该挑战指出了精确测量或模拟许多房间的声学特性的技术难度 ...
近年来,端到端自动语音识别(ASR)系统已证明自己非常准确和高性能,但这些系统对于训练数据中不经常出现的实体名称仍然存在显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是用于各种自然语言处理 (NLP) 任务的多功能工具。在可以使用相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果 ...
使用神经音频编解码器模型对语音进行标记化是现代人工智能管道的重要组成部分,用于单独或在多模态环境中生成或理解语音。传统上,此类标记化模型集中于仅使用具有强归纳偏差的组件的低参数计数架构。在这项工作中,我们表明,通过扩展具有大量参数的 Transformer 架构来解决这个问题,并应用基于灵活的有限标量量化(FSQ)的瓶颈,可以在极低的比特率下达到最先进的语音质量-每秒 400 美元或 700 美元比特的速率 ...
我们提出了 Samba ASR,这是第一个最先进的自动语音识别 (ASR) 模型,利用新颖的 Mamba 架构作为编码器和解码器,建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同,它依赖于自我- 捕获依赖关系的注意力机制,Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系,实现了卓越的性能,此 http URL 解决了转换器的局限性,例如输入长度的二次缩放和处理难度远程依赖性,Samba ASR 实现了卓越的准确性,并且此 http URL 结果表明,Samba ASR 在各种标准基准测试中超越了现有的基于开源 Transformer 的 ASR 模型,将其确立为此 HTTP URL 基准数据集上的最新技术水平,在基准数据集上进行的评估显示了 Word 中的显着改进错误率 (WER),即使在资源匮乏的情况下也具有竞争力的性能此 http URL,Mamba 架构固有的计算效率和参数优化使 Samba ASR 成为各种 ASR 的可扩展且强大的解决方案此 http URL 的贡献包括开发用于自动语音识别 (ASR) 的新 Samba ASR 架构,展示了结构化状态空间模型 (SSM) 相对于基于 Transformer 的语音序列模型的优越性。此 http URL 提供了对公共基准的综合评估,展示了最先进的 (SOTA) 性能,并提出了对计算效率、噪声鲁棒性和序列的深入分析此 http URL 工作凸显了 Mamba SSM 作为无 Transformer 替代方案的可行性,可利用状态空间的进步实现高效、准确的此 http URL Samba ASR 重新定义了 ASR 性能标准,并为该领域的未来研究树立了新的基准 ...
我们提出 WHISPER-GPT:一种用于语音和音乐的生成大语言模型 (LLM),它允许我们作为单一架构的一部分同时处理连续音频表示和离散标记。利用神经压缩算法派生的离散音频标记的生成音频、语音和音乐模型出现了巨大的增长 ...
大型语言模型 (LLM) 在各种 NLP 任务中展示了卓越的性能,并且它们与语音编码器的集成正在迅速成为自动语音识别 (ASR) 领域的主导趋势。之前的工作主要集中在利用 LLM 进行英语和中文语音识别。然而,它们在资源匮乏的环境中解决语音识别挑战的潜力仍未得到充分开发 ...