luffy的文档

luffy

个性签名 ...

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

本文介绍了 Embarrassingly Easy Text-to-Speech (E2 TTS)，这是一种完全非自回归的零样本文本转语音系统，可提供人类水平的自然度以及最先进的说话者相似度和清晰度。在 E2 TTS 框架中，文本输入被转换为带有填充标记的字符序列。然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器 ...

0 0 0 0 2024/06/28 arXiv:2406.18009v1 luffy

Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions

在本文中，我们重点解决将 LLM 应用于 ASR 时面临的限制。最近的工作利用了 prefixLM 类型的模型，直接将语音作为 ASR 的 LLM 的前缀。我们发现优化语音前缀可以带来更好的 ASR 性能，并建议应用 RNNT 损失来执行语音前缀调整 ...

0 0 0 0 2024/06/26 arXiv:2406.14701v1 luffy

Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

我们引入了 Speech ReaLLM，这是一种新的 ASR 架构，它将“仅解码器”ASR 与 RNN-T 结合起来，使多模态 LLM 架构能够进行实时流处理。这是第一个“仅解码器”ASR 架构，旨在处理连续音频，无需明确的端点。语音 ReaLLM 是更通用的 ReaLLM（“实时 LLM”）方法的特例，也是首次在此介绍 ...

0 0 0 0 2024/06/18 arXiv:2406.09569v1 luffy

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

作为一种鲁棒且大规模的多语言语音识别模型，Whisper 在许多资源匮乏和分布外的场景中展示了令人印象深刻的结果。然而，其编码器-解码器结构阻碍了其在流式语音识别中的应用。在本文中，我们介绍了 Simul-Whisper，它使用 Whisper 交叉注意力中嵌入的时间对齐来指导自回归解码并实现基于块的流式 ASR，而无需对预训练模型进行任何微调 ...

0 0 0 0 2024/06/18 arXiv:2406.10052v1 luffy

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

大多数零样本多扬声器 TTS (ZS-TTS) 系统仅支持单一语言。虽然 YourTTS、VALL-E X、Mega-TTS 2 和 Voicebox 等模型探索了多语言 ZS-TTS，但它们仅限于少数高/中资源语言，限制了这些模型在大多数低/中资源语言中的应用。在本文中，我们旨在通过提出并公开 XTTS 系统来缓解这个问题 ...

0 0 0 0 2024/06/11 arXiv:2406.04904v1 luffy

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

本文介绍了 VALL-E 2，这是神经编解码器语言模型的最新进展，标志着零样本文本到语音合成 (TTS) 的里程碑，首次实现了与人类同等的水平。基于其前身 VALL-E，新迭代引入了两项重要的增强功能：重复感知采样通过考虑解码历史中的标记重复来改进原始核心采样过程。它不仅稳定了解码，还避免了无限循环问题 ...

0 0 0 0 2024/06/11 arXiv:2406.05370v1 luffy

U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

规模化开辟了自然语言处理的新领域，但成本很高。作为回应，通过学习仅激活训练和推理中的参数子集，专家混合 (MoE) 已被提议作为通往更大、能力更强的语言模型的节能途径，并且这种向新一代基础的转变模型正在获得发展势头，特别是在自动语音识别（ASR）领域。最近将 MoE 纳入 ASR 模型的工作具有复杂的设计，例如通过补充嵌入网络路由框架、提高专家的多语言能力，以及利用专用辅助损失来进行专家负载平衡或特定语言处理 ...

0 0 0 0 2024/04/29 arXiv:2404.16407v1 luffy

USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models

随着大规模通用语音模型 (USM) 的最新发展，端到端自动语音识别 (ASR) 模型的质量得到了革命性的提升。然而，由于巨大的内存使用和计算成本，部署这些大规模 USM 的成本极其昂贵。因此，模型压缩是在现实场景中在预算范围内适应基于 USM 的 ASR 的一个重要研究课题 ...

0 0 0 0 2024/04/29 arXiv:2312.08553v3 luffy

Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models

端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高，有些模型现在已达到数十亿个参数。然而，这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中，我们研究了一种这样的策略：在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...

0 0 0 0 2024/04/29 arXiv:2402.17184v1 luffy

CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

随着神经音频编解码器（对音频中的多个离散标记流进行编码）的出现，大型语言模型最近作为零样本文本到语音 (TTS) 合成的一种有前景的方法而受到关注。尽管人们一直在热衷于扩展范式，但音频标记化却讽刺地放大了可扩展性挑战，这是由于其较长的序列长度和多个序列建模的复杂性。为了缓解这些问题，我们提出了 CLaM-TTS，它采用概率残差向量量化来 (1) 实现 Token 长度的出色压缩，以及 (2) 允许语言模型一次生成多个 Token ，从而消除级联的需要建模来处理 Token 流的数量 ...

0 0 0 0 2024/04/28 arXiv:2404.02781v1 luffy