虽然情感文本转语音(TTS)已经取得了重大进展,但大多数现有研究仍然仅限于话语级情感表达,无法支持单词级控制。实现词级表达控制提出了根本性挑战,这主要是由于多情感转换建模的复杂性以及捕获句子内情感和韵律变化的注释数据集的稀缺。在本文中,我们提出了 WeSCon,这是第一个自我训练框架,可以在预训练的零样本 TTS 模型中对情感和语速进行词级控制,而不依赖于包含句子内情感或速度转换的数据集 ...
虽然文本转语音 (TTS) 系统可以通过自然语言提示实现对情感表达的细粒度控制,但当所需的情感(风格提示)与文本的语义内容发生冲突时,就会出现重大挑战。这种不匹配通常会导致讲话听起来不自然,从而破坏了实现精细情绪控制的目标。无分类器引导(CFG)是增强提示对齐的关键技术;然而,其在自回归 (AR) TTS 模型中的应用仍未得到充分探索,这可能会导致音频质量下降 ...
This paper presents MFCalib, an innovative extrinsic calibration technique for LiDAR and RGB camera that operates automatically in targetless environments with a single data capture.该方法的核心是使用一组丰富的边缘信息 ...
生成AI的最新突破已通过端到端一代改变了推荐系统。 Onerec将建议重新定义为自回归的生成任务,从而实现了高模型的利用。尽管Onerec-V1在现实部署中显示出显着的经验成功,但两个关键的挑战阻碍了其可扩展性和性能:(1)效率低下的计算分配,其中97 ...
预训练模型的视觉表示优先考虑下游任务的可分类性,而预训练视觉模型的广泛应用对表示可解释性提出了新的要求。然而,目前尚不清楚预训练的表示是否可以同时实现高可解释性和可分类性。为了回答这个问题,我们通过利用表示的可解释性与表示中可解释语义的比率的相关性来量化表示的可解释性 ...
指令调优对于调整大型语言模型 (LLM) 至关重要,但指令跟踪数据的质量差异很大。虽然高质量的数据至关重要,但它往往很稀缺;相反,大量的低质量数据经常被丢弃,导致大量信息丢失。 Existing data augmentation methods struggle to augment this low-quality data effectively, and the evaluation of ...
口语对话模型目前缺乏细粒度语音风格控制的能力,这是类人交互的关键能力,但往往被推理和问答等纯功能性能力所忽视。为了解决这个限制,我们引入了 UltraVoice,这是第一个专为多种细粒度语音风格控制而设计的大规模语音对话数据集。 UltraVoice 包含超过 830 小时的语音对话,提供六个关键语音风格维度的说明:情感、速度、音量、口音、语言和复合风格 ...