一译 —— 文档和论文翻译、对照阅读、讨论和社区

QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization

该技术报告介绍了Qwenlong-CPR，这是一种旨在显式长篇文本优化的上下文压缩框架，在预填充阶段期间针对高度的计算开销，以及在长序列处理中大型语言模型（LLMS）的“中间”性能退化。 Qwenlong-CPR通过新颖的动态上下文优化机制实施，可实现以自然语言指导为指导的多界面上下文，从而实现了效率的提高和提高的性能。 Qwenlong-CPR从QWEN Architecture系列演变而来，引 ...

0 0 0 2025/05/27 arXiv:2505.18092v1 lrklnyk

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

增强学习（RL）已成为培训推理模型的有效方法。但是，现有的RL方法通常会使模型的输出分布偏向奖励最大化路径，而无需引入外部知识。与基本模型相比，这限制了他们的勘探能力，并导致推理能力边界更窄 ...

0 0 0 2025/05/27 arXiv:2505.15692v2 chrisxiong

Learning Hazing to Dehazing: Towards Realistic Haze Generation for Real-World Image Dehazing

现有的现实世界图像脱掩的方法主要尝试微调预训练的模型或调整其推理程序，从而在很大程度上依赖于预先训练的模型和相关的培训数据。此外，在密集的雾期下恢复严重扭曲的信息需要生成的扩散模型，由于其漫长的采样过程，其潜在的去悬空的潜力部分仍未得到充分利用。为了解决这些局限性，我们引入了一条新颖的危险管道，该管道由现实的朦胧图像生成框架（Hazegen）和基于扩散的Dhazing框架（Diffdehaze）组 ...

0 0 0 2025/05/27 arXiv:2503.19262v1 jiajia233

3D CoCa: Contrastive Learners are 3D Captioners

3D字幕旨在描述自然语言中3D场景的内容，由于点云的固有稀疏性和现有方法中的跨模式对准较弱，因此仍然具有高度挑战性。为了应对这些挑战，我们提出了3D可口可乐，这是一个新颖的统一框架，无缝将对比的视觉学习与单个体系结构中的3D字幕产生相结合。我们的方法利用冷冻的剪贴视觉语言主链提供丰富的语义先验，一种空间意识的3D场景编码器来捕获几何环境，以及多模式解码器以生成描述性字幕 ...

0 0 0 2025/05/27 arXiv:2504.09518v1 hx5563

Distilling LLM Agent into Small Models with Retrieval and Code Tools

大型语言模型（LLM）在复杂的推理任务上表现出色，但在计算上保持昂贵，从而限制了其实际部署。为了解决这个问题，最近的作品集中在使用教师LLMS的Theark（COT）痕迹将推理能力提炼成较小的语言模型（SLM）。但是，这种方法在需要罕见的事实知识或精确计算的情况下挣扎，在这种情况下，由于能力有限，SLM经常会幻觉 ...

0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning

我们提出了MM-Eureka，这是一种多模式推理模型，成功地将基于规则的大规模强化学习（RL）扩展到了多模式推理。尽管基于规则的RL在提高LLMS在文本域中的推理能力方面取得了巨大的成功，但其在多模式设置中的应用仍然具有挑战性。我们的工作重现了多模式空间中基于文本的RL系统（例如DeepSeek-R1）的关键特征，包括准确奖励和响应长度的稳定增加以及反射行为的出现 ...

0 0 0 2025/05/27 arXiv:2503.07365v2 dm616703

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

尽管增强学习（RL）在增强大语言模型（LLM）方面取得了巨大的成功，但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性，培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中，我们介绍了Webagent-R1，这是一个简单而有效的端到端多转弯RL RL框架，用于培训网络代理 ...

0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong

Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

随着深度学习和大型语言模型中新兴现象的迅速发现，解释和理解其原因已成为迫切需要。在这里，我们提出了一种严格的熵力理论，用于理解接受随机梯度下降（SGD）及其变体训练的神经网络的学习动力学。在参数对称性和熵损失格局的基础上，我们表明表示学习是由随机性和离散时间更新引起的紧急熵力至关重要的 ...

0 0 0 2025/05/27 arXiv:2505.12387v1 odenkkk

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）