一译 —— 文档和论文翻译、对照阅读、讨论和社区

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

文本到视频（T2V）检索旨在根据用户的文本查询从视频画廊中识别最相关的项目。传统方法仅依靠对齐视频和文本方式来计算相似性并检索相关项目。但是，最近的进步强调，合并从视频和文本方式中提取的辅助信息，以提高检索性能并弥合这些方式之间的语义差距 ...

0 0 0 2025/06/05 arXiv:2505.23952v1 2889932594

Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

在本文中，我们在理论驱动的框架内统一了10多种现有的一步扩散蒸馏方法，例如Diff-Instruct，DMD，SIM，SID，SID，$ F $ -DISTILL等，我们将其命名为\ textbf {\ emph {uni-Instruct}}}。 Uni-Instruct是由我们提出的$ f $ divivergence家族扩散扩展理论的动机。然后，我们介绍关键理论，以克服原始扩展的$ f $  ...

0 0 0 2025/06/05 arXiv:2505.20755v1 wonders

MaskedManipulator: Versatile Whole-Body Control for Loco-Manipulation

人类与世界互动，同时利用精确的全身控制来实现多功能目标。这种多功能性使他们可以通过无缝测序的动作（例如接近杯子，抓住，运输，然后将其放在水槽中）来解决长途，指定的问题，例如将杯子放入水槽中。这种目标驱动的控制可以为动画系统提供新的程序工具，使用户能够定义部分目标，而系统自然``填写''中间动作 ...

0 0 0 2025/06/05 arXiv:2505.19086v1 yukun

Lookahead Optimizer: k steps forward, 1 step back

绝大多数成功的深神经网络都是使用随机梯度下降（SGD）算法的变体训练的。最新改善SGD的尝试可以广泛地分为两种方法：（1）自适应学习率方案，例如Adagrad和Adam，以及（2）加速方案，例如重球和Nesterov动量。在本文中，我们提出了一种新的优化算法LookAhead，它与这些先前方法正交，并且迭代地更新了两组重量 ...

0 0 0 2025/06/05 arXiv:1907.08610v2 aloha

SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

细粒度的视频字幕旨在生成视频内容的详细的，暂时的连贯描述。但是，现有方法难以捕获微妙的视频动态和丰富的详细信息。在本文中，我们利用偏好学习来增强视频视频字幕中视觉模型的性能，同时减轻直接偏好优化（DPO）固有的几个局限性 ...

0 0 0 2025/06/05 arXiv:2506.00835v1 2889932594

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

最近，最先进的文本到图像生成模型，例如Flux和Isex 2.0，在句子级的视觉文本渲染方面取得了重大进展。在本文中，我们关注文章级视觉文本渲染的更具挑战性的场景，并根据用户提供的文章级描述提示和超密集的布局来解决生成高质量业务内容的新任务，包括信息图表和幻灯片 ...

0 0 0 2025/06/05 arXiv:2503.20672v1 13718039169

MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning

视觉深度强化学习（RL）使机器人可以从视觉输入中获取技能以进行非结构化任务。但是，当前算法的样本效率低，限制了其实际适用性。在这项工作中，我们介绍了导师，该方法可以改善RL代理的体系结构和优化 ...

0 0 0 2025/06/05 arXiv:2410.14972v2 晚餐杀手

Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey

大型语言模型（LLM）在文本，推理和决策中表现出色，使其能够在医疗保健，法律和运输等高风险领域中采用。但是，它们的可靠性是一个主要问题，因为它们通常会产生合理但不正确的响应。不确定性定量（UQ）通过估计对产出的信心，降低风险和选择性预测来增强可信度 ...

0 0 0 2025/06/05 arXiv:2503.15850v2 shaoningning

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）