luffy的文档

Differentiable Reward Optimization for LLM based TTS system

本文提出了一种新型的可区分奖励优化（DIFFRO）方法，旨在增强基于文本到语音的神经编解码语言模型的性能。与适用于TTS的人类反馈（RLHF）方法中的常规加固学习相反，DIFFRO直接基于神经编解码器 Token 来计算奖励，而不是依靠合成的音频。此外，我们采用Gumbel-Softmax技术来使奖励功能可区分，从而简化RLHF培训过程 ...

0 0 0 0 2025/07/09 arXiv:2507.05911v1 luffy

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

自我监督学习（SSL）在语音处理中表现出强烈的表现，尤其是在自动语音识别中。在本文中，我们探索了一个SSL预训练的框架，该框架利用掩盖语言建模的目标，该框架具有从语音识别模型中得出的目标。我们还以动态的块大小在预处理期间提出了块状注意，以实现全文和流式调整 ...

0 0 0 0 2025/07/08 arXiv:2506.01192v1 luffy

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

神经缩放法律为设计强大的序列处理体系结构提供了宝贵的见解。尽管这些定律在其他方式中得到了广泛的特征，但它们在语音中的行为仍然相对不受影响。在这项工作中，我们介绍了Owls，这是一套开放式，可再现的多语言语音识别和跨越0的翻译模型的套件 ...

0 0 0 0 2025/07/08 arXiv:2502.10373v1 luffy

OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning

开放式耳语风格的语音模型（OWSM）项目已经使用学术规模的资源开发了一系列完全开放的语音基础模型，但他们的培训数据仍然不足。这项工作通过集成Yodas，Yodas是一个大规模的网络爬行数据集和创意共享许可证。但是，由于其野生性质，尤达斯的融合是非凡的，这引入了诸如不正确的语言标签和音频文本未对准之类的挑战 ...

0 0 0 0 2025/07/05 arXiv:2506.00338v1 luffy

Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders

最近的研究已研究到语音增强（SE）方法，这些方法利用了预训练模型的音频嵌入，与时间频率掩盖或信号预测技术有所不同。本文介绍了一种有效且可扩展的SE方法。我们的方法涉及最初使用预训练的AudioEncoder从嘈杂的语音中提取音频嵌入，然后通过紧凑的编码网络将其分解 ...

0 0 0 0 2025/06/19 arXiv:2506.11514v1 luffy

GLAP: General contrastive audio-text pretraining across domains and languages

对比语言音频预处理（拍手）是一种弥合音频和文本域之间差距的广泛使用方法。当前的拍手方法可以用英语进行声音和音乐检索，而忽略了多语言口语内容。为了解决这个问题，我们介绍了通用语言音频预处理（GLAP），该音频预处理（GLAP）通过多语言和多域功能扩展拍手 ...

0 0 0 0 2025/06/19 arXiv:2506.11350v1 luffy

ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching

现有的大规模零射击文本到语音（TTS）模型具有较高的语音质量，但由于大量参数而导致推理速度缓慢。为了解决此问题，本文介绍了Zipvoice，这是一种基于紧凑的模型大小和快速推理速度的高质量流量匹配零击TTS模型。关键设计包括：1）基于Zipformer的流量匹配解码器，以在约束尺寸下保持足够的建模功能； 2）基于平均基于UPSPRING的初始语音文本对齐和基于Zipformer的文本编码器，以提高语音清晰度； 3）一种减少采样步骤并消除与无分类器指导相关的推理开销的流动蒸馏方法 ...

0 0 0 0 2025/06/19 arXiv:2506.13053v1 luffy

TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data

本文介绍了TTSOPS，这是一个完全自动化的闭环框架，用于从嘈杂的，未切割的网络尺度语音数据中构建多演讲者文本到语音（TTS）系统，通常称为“ Dark Data”，例如在线视频。传统的TTS培训管道需要具有高声学质量和准确的文本语音对齐方式进行精心策划的语料库，这严重限制了可扩展性，扬声器多样性和现实世界中的适用性。尽管最近的研究提出了基于声学质量的数据选择技术，但它们经常忽略两个关键方面：（1）现代TTS模型对噪声的固有性固有性，以及（2）感知低质量却有益的样本的潜在贡献 ...

0 0 0 0 2025/06/19 arXiv:2506.15614v1 luffy

CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing

我们介绍了条件感知的自我监督学习表示（CA-SSLR），这是一种通才调节模型，广泛地适用于各种语音处理任务。与为下游模型优化的标准微调方法相比，CA-SSLR集成了早期层中的语言和说话者嵌入，使SSL模型了解当前的语言和说话者的环境。这种方法在保留基本SSLR的完整性的同时降低了对输入音频功能的依赖 ...

0 0 0 0 2025/05/14 arXiv:2412.04425v1 luffy

Towards Flow-Matching-based TTS without Classifier-Free Guidance

流匹配表现出强大的生成能力，并已成为现代文本到语音（TTS）系统的核心组成部分。为了确保高质量的语音综合，在基于流量匹配的TTS模型的推断期间，无分类器指导（CFG）被广泛使用。但是，CFG会产生大量的计算成本，因为它需要两个正向通行证，这阻碍了其在实时场景中的适用性 ...

0 0 0 0 2025/04/30 arXiv:2504.20334v1 luffy