文本到语音(TTS)模型的最新进展是由大语言模型(LLM)的整合,增强语义理解和改善语音自然性的驱动的。但是,现有的基于LLM的TTS模型通常缺乏开源培训代码和有效的推理加速框架,从而限制了它们的可访问性和适应性。此外,没有针对播客方案专门优化公开可用的TTS模型,这些模型对语音交互应用的需求很高 ...
大型语言模型 (LLM) 彻底改变了自然语言处理,但由于集成音频和文本模式的复杂性,它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo,这是一种混合模态模型,可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法,Ichigo 将语音量化为离散标记,并针对语音和文本模式采用基于 Transformer 的统一架构 ...
多语言和跨语言自动语音识别(MCL-ASR)存在三种方法:语音或字形转录的监督预训练和自监督预训练。我们发现,到目前为止,带有语音监督的预训练对于 MCL-ASR 来说还没有得到充分重视,而从概念上讲,它更有利于不同语言之间的信息共享。本文探索了一种通过弱语音监督进行预训练以实现数据高效的 MCL-ASR 的方法,称为 Whistle ...
自学学习(SSL)在与语音有关的任务中取得了巨大成功。虽然 Transformer 和构象体架构主导了SSL骨架,但在自动语音识别(ASR)中表现出色的Zipformer之类的编码器在SSL中仍未探索。同时,在现有的SSL培训框架内(例如FairSeq)内的数据处理中的效率低下,在管理培训数据的不断增长时构成了挑战 ...
在本文中,我们提出了一种新的方法,用于开发一种可以有效处理印地语查询的英语自动语音识别(ASR)系统,而不会损害其在英语上的性能。我们提出了一种新颖的声学模型(AM),称为“注意”(SHA)模型,具有跨语言共享的隐藏层,而特定于语言的投影层则通过自我发挥作用机制组合。该机制根据输入数据估算每种语言的权重,并相应地称重相应的语言投影层 ...
理解特定于域的定理通常不仅需要基于文本的推理。通过结构化的视觉解释有效沟通对于更深入的理解至关重要。尽管大型语言模型(LLMS)在基于文本的定理推理中表现出很强的性能,但它们产生连贯和教学意义的视觉解释的能力仍然是一个开放的挑战。在这项工作中,我们介绍了Theoremememplainagent,这是一种使用Manim Animations生成长格式定理视频(超过5分钟)的代理方法 ...
我们提出了一种新型的自动建模方法,用于语音合成,将各种自动编码器(VAE)与多模式潜在空间和使用高斯混合模型(GMM)作为条件概率分布相结合。与以前依赖残留向量量化的方法不同,我们的模型利用了VAE潜在空间的连续语音表示,从而大大简化了训练和推理管道。我们还引入了一种随机的单调对准机制来强制执行严格的单调对准 ...
本文描述了房间声学挑战的综合,作为 ICASSP 2025 生成数据增强研讨会的一部分。该挑战定义了一个独特的生成任务,旨在提高房间脉冲响应数据集的数量和多样性,以便可以用于空间敏感的下游任务:扬声器距离估计。该挑战指出了精确测量或模拟许多房间的声学特性的技术难度 ...
近年来,端到端自动语音识别(ASR)系统已证明自己非常准确和高性能,但这些系统对于训练数据中不经常出现的实体名称仍然存在显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是用于各种自然语言处理 (NLP) 任务的多功能工具。在可以使用相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果 ...
使用神经音频编解码器模型对语音进行标记化是现代人工智能管道的重要组成部分,用于单独或在多模态环境中生成或理解语音。传统上,此类标记化模型集中于仅使用具有强归纳偏差的组件的低参数计数架构。在这项工作中,我们表明,通过扩展具有大量参数的 Transformer 架构来解决这个问题,并应用基于灵活的有限标量量化(FSQ)的瓶颈,可以在极低的比特率下达到最先进的语音质量-每秒 400 美元或 700 美元比特的速率 ...