一译 —— 文档和论文翻译、对照阅读、讨论和社区

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness

大型语言模型（LLMS）的可信度是指其产出可靠，安全和道德上一致的程度，并且与他们的认知表现同时已成为至关重要的考虑因素。实际上，从人类反馈中学习（RLHF）已被广泛用于与标记的人类偏好相结合，但其假定对模型可信度的影响尚未经过严格评估。为了弥合这一知识差距，这项研究研究了如何与通用偏好数据保持一致的模型在五个值得信赖的垂直方面执行：毒性，刻板印象偏见，机器伦理，真实性和隐私性 ...

0 0 0 2025/05/07 arXiv:2404.18870v2 leec

AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering

尽管3D高斯的碎片（3DG）彻底改变了3D重建，但它仍然面临诸如混叠，投影伪像和观察不一致之类的挑战，这主要是由于简化了将碎屑视为2D实体的挑战。我们认为，整个3DGS管道中对高斯人进行完整的3D评估可以有效地解决这些问题，同时确保栅格化效率。具体而言，我们引入了一个自适应3D平滑滤波器来减轻混叠，并提出稳定的视图空间边界方法，当高斯延伸到视图flustum范围内时，它消除了弹出的伪像 ...

0 0 0 2025/05/07 arXiv:2504.12811v1 tanyongqiang

DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning

信息检索系统对于有效访问大型文档收集至关重要。最近的方法利用了大型语言模型（LLM）来通过查询增强来提高检索性能，但通常依靠需要大量计算资源和手工标记数据的昂贵监督学习或蒸馏技术。在本文中，我们介绍了DeepRetReval，这是一种基于新颖的增强学习方法，该方法训练LLMS通过反复试验直接通过反复试验进行查询增强，而无需监督数据 ...

0 0 0 2025/05/07 arXiv:2503.00223v3 hegangzi

SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks

使机器人能够以数据有效的方式学习新任务是一个长期的挑战。常见策略涉及仔细利用先前的经验，尤其是在相关任务上收集的过渡数据。尽管对于一般的采摘操作已经取得了很多进展，但在确切控制至关重要的情况下，研究较少的研究已经研究了接触丰富的组装任务 ...

0 0 0 2025/05/07 arXiv:2503.04538v1 LoongCL

Enhancing Once-For-All: A Study on Parallel Blocks, Skip Connections and Early Exits

近年来，使用神经体系结构搜索（NAS）技术可以自动化神经网络的设计。使用此类神经网络具有不同硬件特性的设备的扩散，以及减少搜索功耗的需求，导致实现了一次（OFA）一次，这是一种生态友好的算法，其特征是通过单个学习过程能够通过单个学习过程生成易于适应的可易于适应的算法。为了改善这种范式并发展出高性能但环保的NAS技术，本文介绍了OFAV2，旨在提高其性能的扩展，同时保持相同的生态优势 ...

0 0 0 2025/05/07 arXiv:2302.01888v1 xjwit

Why Does the Effective Context Length of LLMs Fall Short?

分布式培训和有效注意机制的进步已大大扩大了大语模型（LLM）的上下文窗口大小。但是，最近的工作表明，开源LLM的有效上下文长度通常不足，通常不超过其训练长度的一半。在这项工作中，我们将此限制归因于LLMS训练和训练后阶段中相对位置的左旋转频率分布，这阻碍了他们有效收集遥远信息的能力 ...

0 0 0 2025/05/07 arXiv:2410.18745v1 leec

Fast-Slow Thinking for Large Vision-Language Model Reasoning

大型视觉模型（LVLM）的最新进展揭示了\ textit {过度思考}现象，其中模型在所有任务中都会在所有任务中产生冗长的推理。为了解决此问题，我们提出了\ textbf {fast}，这是一个新颖的\ textbf {fa} st- \ textbf {s} low \ textbf {t} hinking框架，该框架基于问题特征动态调整推理深度。通过经验分析，我们通过研究响应长度和数据分布如何 ...

0 0 0 2025/05/07 arXiv:2504.18458v1 duyuetian

Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation

放射学报告的生成对于效率至关重要，但是当前模型缺乏专家的结构化推理，通过无法将视觉发现与精确的解剖位置联系起来，从而阻碍了临床信任和解释性。本文介绍了BoxMed-RL，这是一个开创性的统一培训框架，用于生成可验证和可解释的放射学报告。 BoxMed-RL建立在大型视觉语言模型的基础上，通过两个集成阶段彻底改变了报告的生成：（1）在预处理阶段，我们使用医学概念学习来完善该模型，并使用经过想象的监督 ...

0 0 0 2025/05/07 arXiv:2504.18453v1 duyuetian

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）