一译 —— 文档和论文翻译、对照阅读、讨论和社区

Policy-Adaptive Estimator Selection for Off-Policy Evaluation

非政策评估（OPE）旨在仅使用离线记录的数据准确评估反事实策略的性能。尽管已经开发了许多估计器，但没有单个估计器主导其他估计器，因为估计器的准确性可能会大大差异，具体取决于给定的OPE任务，例如评估策略，操作数量和噪声水平。因此，数据驱动的估计器选择问题变得越来越重要，并且可能对OPE的准确性产生重大影响 ...

0 0 0 2025/07/01 arXiv:2211.13904v2 naristlia

Optimal Treatment Allocation for Efficient Policy Evaluation in Sequential Decision Making

A/B测试对于现代技术公司评估针对标准基线的新开发产品的有效性至关重要。本文研究了最佳设计，旨在最大程度地提高从在线实验获得的信息量，以准确估计治疗效果。我们在动态环境中提出了三种最佳分配策略，其中处理随着时间的推移会顺序分配 ...

0 0 0 2025/07/01 arXiv:2311.02532v1 naristlia

Simulation Agent: A Framework for Integrating Simulation and Large Language Models for Enhanced Decision-Making

仿真虽然在准确复制现实世界系统方面有力，但由于其复杂性，非技术用户通常仍然无法访问。相反，大型语言模型（LLMS）提供了直观的，基于语言的互动，但可能缺乏可靠地模拟复杂现实世界动态所需的结构化的，因果理解。我们介绍了我们的模拟代理框架，这是一种整合模拟模型和LLM的优势的新方法 ...

0 0 0 2025/07/01 arXiv:2505.13761v2 盛大的2

Economic model predictive control for snake robot locomotion

在这项工作中，研究了通过经济模型预测控制（MPC）对蛇机器人运动的控制。仅存在MPC应用于蛇机器人的极少数示例，并且缺少严格的递归可行性和收敛性证明。我们提出了一种经济MPC算法，该算法最大化了机器人的前进速度，并将步态模式的选择纳入封闭环 ...

0 0 0 2025/07/01 arXiv:1909.00795v2 askjacker

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

 Transformer 模型由于其二次时间和线性记忆复杂性而具有长篇文化推断。复发记忆变形金刚（RMT）通过将渐近成本降低到线性时间和持续的内存使用情况来提供解决方案。但是，它们的内存更新机制导致连续执行，从而导致性能瓶颈 ...

0 0 0 2025/07/01 arXiv:2506.05229v1 odenkkk

A Survey of Retentive Network

保留网络（RETNET）代表神经网络体系结构的重大进步，为 Transformer 提供了有效的替代方案。尽管变形金刚依靠自我注意力来建模依赖性，但由于二次复杂性，它们处理长序列时，它们的记忆成本高和可伸缩性有限。为了减轻这些局限性，Retnet引入了一种保留机制，该保留机制将复发的诱导性偏置与全球依赖依赖性建模统一 ...

0 0 0 2025/07/01 arXiv:2506.06708v1 odenkkk

RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models

局部全球注意模型最近已成为标准 Transformer 的引人注目的替代方案，有望提高训练和推理效率。但是，窗口尺寸的关键选择给出了帕累托的权衡：较大的窗户保持性能类似于全部关注，但在短上下文的情况下提供了最小的效率提高，而较小的窗户可以导致性能退化。当前的模型，例如Gemma2和Mistral，采用了保守的窗户尺寸（e ...

0 0 0 2025/07/01 arXiv:2506.15545v1 odenkkk

Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs

为了推进时间序列预测（TSF），已经提出了各种方法来提高预测准确性，从统计技术到数据驱动的深度学习体系结构。尽管它们有效，但大多数现有的方法仍然遵守一种快速思考的范式，以提取历史模式并将其映射到未来的价值观中，因为其核心建模哲学，缺乏结合中间时间序列推理的明确思维过程。同时，出现了缓慢思考的LLM（e ...

0 0 0 2025/07/01 arXiv:2506.10630v1 xiaoming513513

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）