rosyclouds的文档

Step-Audio 2 Technical Report

本文介绍了Step-Adio〜2，这是一种端到端的多模式大型语言模型，旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习（RL），Step-Adio 2可以在自动语音识别（ASR）和音频理解中实现有希望的表现。为了促进真正的端到端语音对话，Step-Audio 2将离散的音频 Token 的产生结合到语言建模中，从而大大提高了其对副语言信息（例如说话风格和情感）的响应能力 ...

0 0 0 0 2025/07/25 arXiv:2507.16632v2 rosyclouds

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

大型语言模型（LLMS）通过音频编解码器具有显着高级的音频处理，这些音频编解码器将音频转换为离散 Token ，从而使语言建模技术应用于音频数据。但是，传统的编解码器通常在高比特率或狭窄领域（例如语音）中运行，并且缺乏有效语言建模所需的语义线索。在解决这些挑战时，我们介绍了Semanticodec，这是一种新颖的编解码器，旨在将音频压缩为每秒不到一百个标记，包括语音，一般声音和音乐，而不会损害质量 ...

0 0 0 0 2025/07/11 arXiv:2405.00233v2 rosyclouds

PAST: Phonetic-Acoustic Speech Tokenizer

我们介绍了过去的一种新型的端到端框架，该框架与信号重建一起共同对语音信息进行建模，从而消除了对外部预审预周化模型的需求。与以前依靠预算的自我监督模型的方法不同，过去使用监督的语音数据，通过辅助任务将域知识直接整合到 Token 化过程中。此外，我们介绍了过去的流媒体，因果变体，从而实现了实时语音应用程序 ...

0 0 0 0 2025/07/11 arXiv:2505.14470v2 rosyclouds

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

GPT-4O样大型多模型（LMM）的出现提高了整合文本，视觉和语音方式的探索，以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示，并将其馈入大型语言模型（LLM）骨架。虽然序列维耦合对于模态积分很简单，但它通常很大程度上依赖于大规模数据来学习模态对齐 ...

0 1 0 0 2025/07/09 arXiv:2506.13642v2 rosyclouds

ACE-Step: A Step Towards Music Generation Foundation Model

我们介绍了Ace-Step，这是一种新型的音乐发电基础模型，它通过整体建筑设计克服了现有方法的关键局限性，并实现了最先进的性能。当前方法在发电速度，音乐连贯性和可控性之间面临固有的权衡。例如，基于LLM的模型（e ...

0 0 0 0 2025/07/02 arXiv:2506.00045v1 rosyclouds

Seamless: Multilingual Expressive and Streaming Speech Translation

当今，大型自动语音翻译系统缺乏关键功能，与人与人之间的对话相比，机器介导的沟通感觉无缝。在这项工作中，我们介绍了一个模型系列，该模型可以以流式传播方式端到端表达和多语言翻译。首先，我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...

0 0 0 0 2025/06/27 arXiv:2312.05187v1 rosyclouds

Enhancing and Exploring Mild Cognitive Impairment Detection with W2V-BERT-2.0

这项研究探讨了一种使用讽刺的跨语言数据集检测轻度认知障碍（MCI）的多语言音频自我监督学习模型。尽管使用BERT模型的基于语音转录的检测有效，但由于缺乏转录和时间信息而存在局限性。为了解决这些问题，该研究直接利用W2V-bert-2语音话语的功能 ...

0 0 0 0 2025/06/27 arXiv:2501.16201v1 rosyclouds

CodecFake+: A Large-Scale Neural Audio Codec-Based Deepfake Speech Dataset

随着神经音频编解码器的快速发展，基于编解码的语音生成（COSG）系统已经变得非常强大。不幸的是，COSG还可以创建高度逼真的深层演讲，从而更容易模仿个人的声音并传播错误的信息。我们将COSG Systems生成的新兴的深层演讲称为CodeCfake ...

0 0 0 0 2025/06/25 arXiv:2501.08238v2 rosyclouds

Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model

大型音频语言模型（LALMS）具有明显高级的智能人类计算机相互作用，但他们对基于文本的输出的依赖限制了它们直接产生自然语音响应的能力，从而阻碍了无缝的音频相互作用。为了解决这个问题，我们介绍了step-audio-aqaa，这是一个完全端到端的LALM，旨在音频查询 - 审计答案（AQAA）任务。该模型集成了用于语言和语义特征提取的双重编码书的音频 Token ，一个1300亿个参数骨干LLM和用于高保真语音综合的神经声码器 ...

0 0 0 0 2025/06/17 arXiv:2506.08967v2 rosyclouds

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

生成人工智能的最新进展显着改变了风格的文本到语音合成（Captts）的领域。但是，由于缺乏标准化的，全面的数据集以及对基于Captt构建的下游任务的有限研究，因此将Captt适应现实世界应用程序仍然具有挑战性。为了解决这些差距，我们介绍了Capspech，这是一种专为一系列与Captts相关的任务的新基准测试，包括与风格的文本对语音综合，具有声音事件（Captts-SE），强调的TTS（ACCCAPTTS），受到情感上的TTS（Emocaptts）（emocaptts）和spectseech sentts ins conttress ins contterts（contects insents insents insemtts syntts synttts contterts insytts） ...

0 0 0 0 2025/06/12 arXiv:2506.02863v1 rosyclouds