最近的大语言模型(LLM)驱动的聊天助手系统集成了内存组件来跟踪用户助手的聊天历史,从而实现更准确和个性化的响应。然而,它们在持续相互作用中的长期记忆能力仍未得到充分探索。本文介绍了 LongMemEval,这是一个综合基准测试,旨在评估聊天助理的五种核心长期记忆能力:信息提取、多会话推理、时间推理、知识更新和放弃 ...
稀疏奖励的探索仍然是强化学习(RL)的挑战性研究问题。特别是对于顺序对象操纵任务,RL代理总是会获得负奖励,直到完成所有子任务,从而导致勘探效率较低。为了有效地解决这些任务,我们提出了一种新颖的自导持续RL框架Relayher(RHER) ...
批处理分布(数据并行)是主要分布的深神经网络(DNN)训练策略,因为它的普遍适用性及其对单程序-Multiple-data(SPMD)编程的适用性。但是,批处理遇到的问题包括无法训练很大的模型(由于内存限制),高延迟和小批量尺寸的效率低下。所有这些都可以通过更一般的分布策略(模型 - 并行性)来解决 ...
MOE(专家的混合物)占上风是一种神经体系结构,可以将基于现代 Transformer 的LLM(大语言模型)扩展到前所未有的尺度。尽管如此,大型Moes对计算能力,内存能力和记忆带宽的巨大要求使可扩展性的挑战和有效的并行推理已成为在延迟约束下获得足够的吞吐量的必要条件。 DeepSpeed-MoE是一种最先进的MOE推理框架,采用3D并行范式,包括EP(专家并行性),TP(张量并行)和DP(数据 ...
由于信息的快速生成和传播,尽管开发成本巨大,大型语言模型(LLM)很快就过时了。由于保持模型更新的迫切需要,在线学习已成为利用 LLM 进行实际应用时的关键必需品。然而,鉴于未见过的文档的语料库不断扩大以及现代 LLM 的巨大参数空间,有效的适应至关重要 ...
随着人类越来越多地与由RL,LLM及以后的不同代理人共享环境,以自然语言解释其政策的能力对于可靠的共存至关重要。在本文中,我们基于LLM构建了一个模型的解释发生器。技术新颖性是训练该LLM的奖励是由生成流匹配模型产生的 ...
双系统VLA(视觉语言行动)体系结构已成为体现情报研究的热门话题,但是缺乏足够的开源工作来进行进一步的性能分析和优化。为了解决这个问题,本文将总结并比较现有双系统体系结构的结构设计,并对现有双重系统体系结构的核心设计元素进行系统的经验评估。最终,它将提供一个低成本的开源模型,以进一步探索 ...
由于其有益的勘探特性,最大的熵增强学习(Maxent-RL)已成为RL的标准方法。传统上,政策是使用高斯分布进行参数化的,这大大限制了其代表性。基于扩散的策略提供了一种更具表现力的替代方法,但将它们整合到Maxent-RL构成挑战中,主要是由于计算其边际熵的难以理解 ...