文本到语音(TTS)模型的最新进展是由大语言模型(LLM)的整合,增强语义理解和改善语音自然性的驱动的。但是,现有的基于LLM的TTS模型通常缺乏开源培训代码和有效的推理加速框架,从而限制了它们的可访问性和适应性。此外,没有针对播客方案专门优化公开可用的TTS模型,这些模型对语音交互应用的需求很高 ...

0 0 0 0 2025/04/29 arXiv:2504.19146v1 luffy

大型语言模型 (LLM) 彻底改变了自然语言处理,但由于集成音频和文本模式的复杂性,它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo,这是一种混合模态模型,可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法,Ichigo 将语音量化为离散标记,并针对语音和文本模式采用基于 Transformer 的统一架构 ...

0 0 0 0 2025/04/09 arXiv:2410.15316v3 luffy

多语言和跨语言自动语音识别(MCL-ASR)存在三种方法:语音或字形转录的监督预训练和自监督预训练。我们发现,到目前为止,带有语音监督的预训练对于 MCL-ASR 来说还没有得到充分重视,而从概念上讲,它更有利于不同语言之间的信息共享。本文探索了一种通过弱语音监督进行预训练以实现数据高效的 MCL-ASR 的方法,称为 Whistle ...

0 0 0 0 2025/03/29 arXiv:2406.02166v2 luffy

自学学习(SSL)在与语音有关的任务中取得了巨大成功。虽然 Transformer 和构象体架构主导了SSL骨架,但在自动语音识别(ASR)中表现出色的Zipformer之类的编码器在SSL中仍未探索。同时,在现有的SSL培训框架内(例如FairSeq)内的数据处理中的效率低下,在管理培训数据的不断增长时构成了挑战 ...

0 0 0 0 2025/03/26 arXiv:2411.17100v2 luffy

在本文中,我们提出了一种新的方法,用于开发一种可以有效处理印地语查询的英语自动语音识别(ASR)系统,而不会损害其在英语上的性能。我们提出了一种新颖的声学模型(AM),称为“注意”(SHA)模型,具有跨语言共享的隐藏层,而特定于语言的投影层则通过自我发挥作用机制组合。该机制根据输入数据估算每种语言的权重,并相应地称重相应的语言投影层 ...

0 0 0 0 2025/03/12 arXiv:2503.07522v1 luffy

理解特定于域的定理通常不仅需要基于文本的推理。通过结构化的视觉解释有效沟通对于更深入的理解至关重要。尽管大型语言模型(LLMS)在基于文本的定理推理中表现出很强的性能,但它们产生连贯和教学意义的视觉解释的能力仍然是一个开放的挑战。在这项工作中,我们介绍了Theoremememplainagent,这是一种使用Manim Animations生成长格式定理视频(超过5分钟)的代理方法 ...

0 0 1 1 2025/03/05 arXiv:2502.19400v1 luffy