一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

在机器人技术中，定义技能学习的奖励功能一直是长期以来的挑战。最近，视觉模型（VLM）在定义机器人操纵技巧的奖励信号方面表现出了希望。但是，现有工作通常提供过于粗糙的奖励指导，从而导致学习过程不足 ...

0 0 0 2025/06/06 arXiv:2405.13573v3 Kyrie

MMPolymer: A Multimodal Multitask Pretraining Framework for Polymer Property Prediction

聚合物是由许多相同或相似单体的共价键合构成的高分子重量化合物，因此它们的3D结构很复杂，但表现出难以兑现的规律性。通常，聚合物的性能，例如可塑性，电导率，生物兼容性等，与其3D结构高度相关。但是，现有的聚合物属性预测方法在很大程度上依赖于从聚合物微笑序列（p-smiles字符串）中学到的信息，同时忽略了关键的3D结构信息，从而导致了次优性能 ...

0 0 0 2025/06/06 arXiv:2406.04727v2 zy_

CARD: Classification and Regression Diffusion Models

考虑到其协变量$ \ boldsymbol x $的连续或分类响应变量$ \ boldsymbol y $的分布是统计和机器学习中的基本问题。深度神经网络的监督学习算法在预测给定$ \ boldsymbol y $的平均值方面取得了长足的进步，但是他们经常因其准确捕捉预测的不确定性的能力而受到批评。在本文中，我们介绍了分类和回归扩散（卡）模型，该模型结合了基于扩散的条件生成模型和预训练的条件均值估 ...

0 0 0 2025/06/06 arXiv:2206.07275v4 HaoLiu0209

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

具有巨大的预训练 Token 和参数的大型语言模型（LLMS）出现了多种能力，包括数学推理，代码生成和随后。通过监督的微调（SFT）进一步增强了这些能力。尽管开源社区探索了临时SFT以增强个人功能，但专有的LLMS在各种技能上表现出多功能性 ...

0 0 0 2025/06/06 arXiv:2310.05492v4 fanfer

MR. Video: "MapReduce" is the Principle for Long Video Understanding

我们建议先生。视频是一个代理长的视频理解框架，展示了用于处理长视频的简单而有效的MapReduce原理：（1）地图：独立和密集地感知短视频剪辑，（2）简化：从所有剪辑中共同汇总信息。与序列到序列视觉模型（VLM）相比，MR ...

0 0 0 2025/06/06 arXiv:2504.16082v1 2889932594

SceneFormer: Indoor Scene Generation with Transformers

我们通过生成一系列对象以及它们的位置和方向在房间布局中进行的位置和方向来解决室内场景生成的任务。大型室内场景数据集使我们可以从用户设计的室内场景中提取模式，并根据这些模式生成新场景。现有方法依赖于这些场景的2D或3D外观，除了对象位置，并对对象之间的可能关系做出假设 ...

0 0 0 2025/06/06 arXiv:2012.09793v2 zack_liu

Video-R1: Reinforcing Video Reasoning in MLLMs

受到DeepSeek-R1通过基于规则的强化学习（RL）提高推理能力的成功的启发，我们引入了Video-R1，作为首次尝试系统地探索R1范式来激励多模式大型语言模型（MLLM）中的视频推理的尝试。但是，直接将RL培训与GRPO算法应用于视频推理，提出了两个主要挑战：（i）缺乏视频推理的时间建模，以及（ii）缺乏高质量的视频 - 理论数据。为了解决这些问题，我们首先提出了T-GRPO算法，该算法鼓励 ...

0 0 0 2025/06/06 arXiv:2503.21776v3 ktka_kaka_ka

TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation

检索增强生成 (RAG) 系统通过集成外部知识源来增强大型语言模型 (LLM)，从而针对用户查询提供更准确且与上下文相关的响应。然而，这些系统仍然容易受到语料库中毒攻击，这些攻击可能会通过注入恶意内容而显着降低 LLM 的性能。为了应对这些挑战，我们提出了 TrustRAG，这是一个强大的框架，可以在受损和不相关的内容到达语言模型之前系统地对其进行过滤 ...

0 0 0 2025/06/06 arXiv:2501.00879v3 0x211

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）