一译 —— 文档和论文翻译、对照阅读、讨论和社区

LightStereo: Channel Boost Is All You Need for Efficient 2D Cost Aggregation

我们提出了Lightstereo，这是一个尖端的立体声匹配网络，该网络旨在加速匹配过程。 LightStereo偏离了依赖计算密集型4D成本的常规方法学，采用3D成本量作为轻量级替代方案。尽管以前曾探索过类似的方法，但我们的突破在于通过专门关注3D成本量的通道维度来提高性能，其中匹配成本的分布被封装 ...

0 0 0 2025/03/04 arXiv:2406.19833v3 wangzhen

SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection

最近的开放式摄取人类对象相互作用（OV-HOI）检测方法主要依赖于大语言模型（LLM）来生成辅助描述，并利用从剪辑中蒸馏出来的知识来检测看不见的交互类别。尽管它们有效，但这些方法仍面临两个挑战：（1）由于依赖文本对齐的最后一层视觉特征，特征颗粒状缺陷，导致忽视了中间层中关键的对象级细节； （2）语义相似性混乱，是由于剪辑对某些类别的固有偏见引起的，而LLM生成的描述仅基于标签，无法充分捕获类间的相 ...

0 0 0 2025/03/04 arXiv:2503.00414v1 18804024672

Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs

在知识密集的任务中，尤其是在医学和法律等高风险领域中，不仅要检索相关信息，而且至关重要，而且要提供因果推理和解释性。大型语言模型（LLM）在自然语言理解和发电任务中取得了出色的表现。但是，他们经常受到限制，例如在纳入新知识，产生幻觉和解释其推理过程的困难之类的局限性 ...

0 0 0 2025/03/04 arXiv:2501.14892v1 瓶子

Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning

熟练的机器人操纵受益于非划出（例如推动）和预智能之间的复杂协同作用（e ...

0 0 0 2025/03/04 arXiv:1803.09956v3 灞気水笵er

Knowledge Graphs as Context Sources for LLM-Based Explanations of Learning Recommendations

在个性化教育时代，llm），和生成式人工智能最近为生成类人解释、学习建议打开了新的大门。然而，在教育这样的敏感领域，它们的精确度还远未达到可接受的程度... ...

0 0 0 2025/03/04 arXiv:2403.03008v1 Shylie

CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification

本文介绍了一种基于剪辑的无监督学习方法，用于无注释的多标签图像分类，包括三个阶段：初始化，训练和推理。在初始化阶段，我们充分利用了功能强大的剪辑模型，并提出了一种新的方法，以扩展基于全局本地图像文本相似性聚集的多标签预测的剪辑。更具体地说，我们将每个图像分为片段并利用剪辑，以生成整个图像（全局）以及每个片段（本地）的相似性向量 ...

0 0 0 2025/03/04 arXiv:2307.16634v2 18804024672

Efficient learning of goal-oriented push-grasping synergy in clutter

我们专注于以目标为导向的握把的任务，在该任务中，机器人应该在混乱中掌握预分配的目标对象，并且需要一些预抓操作，例如推动以实现稳定的抓地力。但是，在此任务中，机器人仅在成功掌握目标对象时才从环境中获得积极的回报。此外，关节推动和抓住的伸长序列会使动作序列延伸，从而加剧了奖励延迟的问题 ...

0 0 1 2025/03/04 arXiv:2103.05405v3 灞気水笵er

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

在扩散模型的显着进步的推动下，文本到图像的生成取得了长足的进步，从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型（MLLM），尤其是强大的商业模型，例如GPT-4O。尽管这些模型非常有效，但它们的大量成本限制了大规模评估中的可伸缩性 ...

0 0 0 2025/03/04 arXiv:2411.15488v1 arthur

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）