一译 —— 文档和论文翻译、对照阅读、讨论和社区

TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer

我们提出了 TransNormerLLM，这是第一个基于线性注意力的大语言模型 (LLM)，它在准确性和效率方面都优于传统的基于 softmax 注意力的模型。 TransNormerLLM 从之前的线性注意力架构 TransNormer 发展而来，进行了高级修改，包括位置嵌入、线性注意力加速、门控机制、张量归一化以及推理加速和稳定。具体来说，我们将 LRPE 与指数衰减结合使用，以避免注意力稀释 ...

0 0 0 2025/07/01 arXiv:2307.14995v2 wjhauannn

Continual Pre-Training of Large Language Models: How to (re)warm your model?

llm）通常会在数十亿个 Token ，只有在新数据可用时才会重新启动该过程。一个更便宜、更有效的解决方案是对这些模型进行持续的预训练，只有在新数据可用时才会重新启动该过程。一个更便宜、更有效的解决方案是对这些模型进行持续的预训练，即... ...

0 0 0 2025/07/01 arXiv:2308.04014v2 NightKiss

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

自我注意力是大语言模型（LLM）的重要组成部分，但是长序列的重要推理潜伏期。在多租户LLM服务方案中，可以通过使用多个LLM请求在前缀中具有共享系统提示的概率来优化自我注意力的计算和内存操作成本。在本文中，我们介绍了bunkattention，这是一种前缀感知的自我发项模块，可以检测到多个请求的匹配及时前缀，并在运行时共享其密钥/值张量，以改善KV CACHE的内存利用率 ...

0 0 0 2025/07/01 arXiv:2402.15220v4 DrowXG

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

离线强化学习（RL）旨在使用预先收集的数据集找到接近最优的策略。在现实场景中，数据收集可能成本高昂且存在风险；因此，当域内数据有限时，离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力，本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$)，基于决策转换器的通用框架，可有效 ...

0 0 0 2025/07/01 arXiv:2310.20587v5 zengyanxiang

Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising

实时投标（RTB）是在线展示广告中的重要机制，在此广告中，每个页面视图的适当竞标在良好的营销结果中起着至关重要的作用。预算限制的投标是RTB中的典型情况，广告商希望在预设预算限制下最大化获胜印象的总价值。但是，由于拍卖环境的复杂性和波动性，很难得出最佳的招标策略 ...

0 0 0 2025/07/01 arXiv:1802.08365v6 naristlia

Benchmarking for Deep Uplift Modeling in Online Marketing

在线营销对于许多工业平台和业务应用程序至关重要，旨在通过确定相应的交付敏感群体（例如优惠券和奖金）来增加用户参与度和平台收入。随着工业场景中特征的规模和复杂性的增加，作为有前途的技术，深层的隆升建模（DUM）吸引了学术界和行业的越来越多的研究，从而产生了各种预测模型。但是，目前的DUM仍然缺乏一些标准化的基准和统一的评估方案，这限制了实验结果在现有研究中的可重复性以及在这个方向上的实际价值和潜在影 ...

0 1 0 2025/07/01 arXiv:2406.00335v1 zhr

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

（（1）（1）（1），（2）（2）（2）超球面上（归一化），对比损失渐近地优化了这些属性，对比损失渐近地优化了这些属性，并分析了它们对下游任务的积极影响... ...

0 0 0 2025/07/01 arXiv:2005.10242v10 Jasper

ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model

在现实的情况下，人们重新识别（REID）希望通过描述性查询来识别利益，而不管查询是单一模态还是多种方式的组合。但是，现有的方法和数据集仍被限制在有限的方式上，无法满足此要求。因此，我们研究了一个称为Omni多模式人重新识别（OM-REID）的新的挑战性问题，该问题旨在通过不同的多模式查询实现有效检索 ...

0 0 0 2025/07/01 arXiv:2506.09385v1 lllianghe

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）