实时,聪明和自然的语音互动是下一代人类计算机相互作用的重要组成部分。最近的进步展示了基于大语言模型(LLM)建立智能口头聊天机器人的潜力。在本文中,我们介绍了Llama-omni 2,这是一系列语言模型(SpeechLMS),范围为0 ...

0 0 0 0 2025/05/07 arXiv:2505.02625v1 rosyclouds

我们提出了分段整流流(Perflow),这是一种基于流量的加速扩散模型的方法。 Perflow将生成流的采样过程分为几个时间窗口,并通过反射操作在每个间隔中拉直轨迹,从而接近分段线性流。 Perflow在几步一代中取得了出色的性能 ...

0 0 0 0 2025/04/30 arXiv:2405.07510v5 rosyclouds

大型语言模型(LLM)的最新进展激发了人们对将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模式与LLM的融合,特别是与文本有关的语音方式。本文调查了语音与LLM的集成,将方法分类为三种主要方法:基于文本的,基于潜在的基于主代表和基于音频的集成 ...

0 0 1 1 2025/03/29 arXiv:2502.19548v1 rosyclouds

大型语言模型 (LLM) 的功能极大地推动了音频生成领域的最新进展。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模,以及利用更大的数据集,并且通常使用声学编解码器(例如EnCodec)进行音频标记化。然而,这些编解码器最初是为音频压缩而设计的,这可能会导致音频 LLM 环境中的性能不佳 ...

0 0 1 2 2025/03/29 arXiv:2408.17175v3 rosyclouds

从观察数据中估算反事实的结果与许多应用程序有关(例如个性化医学) ...

0 0 0 0 2025/03/20 arXiv:2204.07258v2 rosyclouds

基于文本的大语言模型(LLM)的最新进展,尤其是在GPT系列和O1模型中,已经证明了扩展训练时间和推理时间计算的有效性。但是,利用LLM的当前最新TTS系统通常是多阶段,需要单独的模型(例如, ...

0 0 0 0 2025/03/03 arXiv:2502.04128v2 rosyclouds