rosyclouds的文档

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

本文通过对抗流匹配优化引入了周期涡流，这是一种高保真性和高效波形生成模型。最近，有条件流量匹配（CFM）生成模型已成功地用于波形生成任务，利用训练的单个矢量场估计目标。尽管这些模型可以生成高保真波形信号，但与基于GAN的模型相比，它们需要明显更多的ODE步骤，而基于GAN的模型只需要单一一代步骤 ...

0 0 0 0 2025/06/11 arXiv:2408.08019v1 rosyclouds

SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation

全双工多模式大型语言模型（LLMS）提供了一个统一的框架，用于解决多样化的语音理解和发电任务，从而实现了更自然和无缝的人机对话。与传统的模块化对话AI系统不同，该系统将语音识别，理解和语音到语音生成分为不同的组件不同，多模式LLMS作为单端到端模型运行。这种简化的设计消除了跨组件的错误传播，并充分利用了嵌入在输入语音信号中的丰富的非语言信息 ...

0 0 0 0 2025/06/06 arXiv:2411.18138v1 rosyclouds

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

加速扩散模型采样对于有效的AIGC部署至关重要。尽管基于分布匹配和轨迹匹配的扩散蒸馏方法将采样降低到一步很少，但它们在复杂的任务上却缺乏文本到图像生成等复杂任务。几步生成在速度和质量之间提供了更好的平衡，但是现有的方法面临持续的权衡：分配匹配缺乏灵活性多步抽样，而轨迹匹配通常会产生次优的图像质量 ...

0 1 0 0 2025/05/08 arXiv:2503.06674v2 rosyclouds

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

实时，聪明和自然的语音互动是下一代人类计算机相互作用的重要组成部分。最近的进步展示了基于大语言模型（LLM）建立智能口头聊天机器人的潜力。在本文中，我们介绍了Llama-omni 2，这是一系列语言模型（SpeechLMS），范围为0 ...

0 0 0 0 2025/05/07 arXiv:2505.02625v1 rosyclouds

PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator

我们提出了分段整流流（Perflow），这是一种基于流量的加速扩散模型的方法。 Perflow将生成流的采样过程分为几个时间窗口，并通过反射操作在每个间隔中拉直轨迹，从而接近分段线性流。 Perflow在几步一代中取得了出色的性能 ...

0 0 0 0 2025/04/30 arXiv:2405.07510v5 rosyclouds

When Large Language Models Meet Speech: A Survey on Integration Approaches

大型语言模型（LLM）的最新进展激发了人们对将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模式与LLM的融合，特别是与文本有关的语音方式。本文调查了语音与LLM的集成，将方法分类为三种主要方法：基于文本的，基于潜在的基于主代表和基于音频的集成 ...

0 0 1 1 2025/03/29 arXiv:2502.19548v1 rosyclouds

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

大型语言模型 (LLM) 的功能极大地推动了音频生成领域的最新进展。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模，以及利用更大的数据集，并且通常使用声学编解码器（例如EnCodec）进行音频标记化。然而，这些编解码器最初是为音频压缩而设计的，这可能会导致音频 LLM 环境中的性能不佳 ...

0 0 1 2 2025/03/29 arXiv:2408.17175v3 rosyclouds

Causal Transformer for Estimating Counterfactual Outcomes

从观察数据中估算反事实的结果与许多应用程序有关（例如个性化医学） ...

0 0 0 0 2025/03/20 arXiv:2204.07258v2 rosyclouds

Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

基于文本的大语言模型（LLM）的最新进展，尤其是在GPT系列和O1模型中，已经证明了扩展训练时间和推理时间计算的有效性。但是，利用LLM的当前最新TTS系统通常是多阶段，需要单独的模型（例如， ...

0 0 0 0 2025/03/03 arXiv:2502.04128v2 rosyclouds