韵律对于语音技术、塑造理解力、自然性和表现力至关重要。然而,当前的文本转语音(TTS)系统仍然难以准确捕捉类似人类的韵律变化,部分原因是现有的韵律评估方法仍然有限。平均意见得分 (MOS) 等传统指标需要大量资源,且不一致,并且无法深入了解系统听起来不自然的原因 ...
测试时间缩放 (TTS) 通过在推理期间分配额外的计算(通常通过并行、顺序或混合缩放)来改进大型语言模型 (LLM)。然而,先前的研究通常假设固定的协作架构(例如 ...
监督微调 (SFT) 通过对精心策划的高质量指令响应对子集进行训练,使预训练的大型语言模型 (LLM) 适应特定于领域的指令,这些子集通常来自通常包含许多低质量或噪声样本的较大数据集。然而,现有的质量第一范式经常忽略被丢弃的低质量数据中的有价值信号,并依赖于不完善的质量过滤器。我们引入了ENTP(Enhancing low-quality SFT data via Neural-symbolic ...
本文提出了一种以概念为中心的范例,用于构建可以持续学习和灵活推理的代理。以概念为中心的代理利用神经符号概念的词汇表。这些概念,例如对象、关系和动作概念,都是基于感觉输入和驱动输出 ...
由于每天生成的内容量呈指数级增长,推荐系统的重要性正在迅速增长。内容的激增给设计有效的推荐系统带来了独特的挑战。这些挑战中的关键是需要有效地利用代表用户偏好的大量自然语言数据和图像 ...
行为克隆通过训练判别模型来根据观察结果预测专家行动,从而将政策学习简化为监督学习。这种判别模型是非因果的:训练过程不知道专家与环境之间交互的因果结构。我们指出,由于模仿学习的分布变化,忽视因果关系尤其具有破坏性 ...
基于LLM的代理商的最新进展表明,通过整合外部工具来处理复杂的,知识密集的任务。在不同的工具选择中,搜索工具在获取广泛的外部知识中起着关键作用。但是,开源代理仍然无法实现专家级搜索智能,能够解决模棱两可的查询,生成精确的搜索,分析结果并进行彻底探索的能力 ...
在过去的几年中,YOLO 系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增加数据和设计新的损失,将基线提升到更高的水平。然而,我们发现以前的模型仍然存在信息融合问题,尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经缓解了这个问题 ...