文本到视频(T2V)检索旨在根据用户的文本查询从视频画廊中识别最相关的项目。传统方法仅依靠对齐视频和文本方式来计算相似性并检索相关项目。但是,最近的进步强调,合并从视频和文本方式中提取的辅助信息,以提高检索性能并弥合这些方式之间的语义差距 ...
在本文中,我们在理论驱动的框架内统一了10多种现有的一步扩散蒸馏方法,例如Diff-Instruct,DMD,SIM,SID,SID,$ F $ -DISTILL等,我们将其命名为\ textbf {\ emph {uni-Instruct}}}。 Uni-Instruct是由我们提出的$ f $ divivergence家族扩散扩展理论的动机。然后,我们介绍关键理论,以克服原始扩展的$ f $ ...
人类与世界互动,同时利用精确的全身控制来实现多功能目标。这种多功能性使他们可以通过无缝测序的动作(例如接近杯子,抓住,运输,然后将其放在水槽中)来解决长途,指定的问题,例如将杯子放入水槽中。这种目标驱动的控制可以为动画系统提供新的程序工具,使用户能够定义部分目标,而系统自然``填写''中间动作 ...
绝大多数成功的深神经网络都是使用随机梯度下降(SGD)算法的变体训练的。最新改善SGD的尝试可以广泛地分为两种方法:(1)自适应学习率方案,例如Adagrad和Adam,以及(2)加速方案,例如重球和Nesterov动量。在本文中,我们提出了一种新的优化算法LookAhead,它与这些先前方法正交,并且迭代地更新了两组重量 ...
细粒度的视频字幕旨在生成视频内容的详细的,暂时的连贯描述。但是,现有方法难以捕获微妙的视频动态和丰富的详细信息。在本文中,我们利用偏好学习来增强视频视频字幕中视觉模型的性能,同时减轻直接偏好优化(DPO)固有的几个局限性 ...
最近,最先进的文本到图像生成模型,例如Flux和Isex 2.0,在句子级的视觉文本渲染方面取得了重大进展。在本文中,我们关注文章级视觉文本渲染的更具挑战性的场景,并根据用户提供的文章级描述提示和超密集的布局来解决生成高质量业务内容的新任务,包括信息图表和幻灯片 ...
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning
视觉深度强化学习(RL)使机器人可以从视觉输入中获取技能以进行非结构化任务。但是,当前算法的样本效率低,限制了其实际适用性。在这项工作中,我们介绍了导师,该方法可以改善RL代理的体系结构和优化 ...
大型语言模型(LLM)在文本,推理和决策中表现出色,使其能够在医疗保健,法律和运输等高风险领域中采用。但是,它们的可靠性是一个主要问题,因为它们通常会产生合理但不正确的响应。不确定性定量(UQ)通过估计对产出的信心,降低风险和选择性预测来增强可信度 ...