本文研究了 OpenAI 发布的 Whisper 自动语音识别(ASR)模型的上下文学习能力。提出了一种新颖的基于语音的上下文学习(SICL)方法用于测试时适应,该方法可以仅用少量标记的语音样本来降低单词错误率(WER),而无需梯度下降。使用汉语方言进行的语言级适应实验表明,当将 SICL 应用到孤立词 ASR 时,使用任意大小的 Whisper 模型在两种方言上都可以实现一致且相当大的相对 WER 减少,平均为 32 ...

0 0 0 0 2024/04/18 arXiv:2309.07081v2 57399new

我们之前提出的 MossFormer 在单耳语音分离方面取得了可喜的性能。然而,它主要采用基于自注意力的 MossFormer 模块,该模块倾向于强调更远距离、更粗尺度的依赖关系,但在有效建模更精细尺度的循环模式方面存在缺陷。在本文中,我们介绍了一种新颖的混合模型,通过将循环模块集成到 MossFormer 框架中,该模型提供了对远程、粗尺度依赖性和细尺度循环模式进行建模的功能 ...

0 0 0 0 2024/04/09 arXiv:2312.11825v1 57399new

我们提出了 RALL-E,一种用于文本到语音 (TTS) 合成的强大语言建模方法。虽然之前基于大语言模型 (LLM) 的工作在零样本 TTS 上表现出了令人印象深刻的性能,但此类方法往往鲁棒性较差,例如韵律不稳定(怪异的音高和节奏/持续时间)和较高的单词错误率 (WER),由于语言模型的自回归预测风格。 RALL-E背后的核心思想是思想链(CoT)提示,它将任务分解为更简单的步骤,以增强基于LLM的TTS的稳健性 ...

0 0 0 0 2024/04/07 arXiv:2404.03204v1 57399new

在日常生活中,我们会遇到各种声音,包括令人想要的和不想要的,但我们对它们的存在和音量的控制有限。我们的工作引入了“聆听、聊天和编辑”(LCE),这是一种新颖的多模式声音混合编辑器,可以根据用户提供的文本指令修改混合物中的每个声源。 LCE 的特点是用户友好的聊天界面以及在混合中同时编辑多个声源而无需将它们分开的独特能力 ...

0 0 0 0 2024/04/07 arXiv:2402.03710v1 57399new

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)