构建跨 Web、桌面和移动环境通用的代理仍然是一个开放的挑战,因为先前的系统依赖于限制跨平台部署的特定于环境的接口。我们推出了 Surfer 2,这是一种纯粹通过视觉观察进行操作的统一架构,可在所有三种环境中实现最先进的性能。 Surfer 2 集成了分层上下文管理、解耦规划和执行以及具有自适应恢复的自我验证,从而实现了长期任务范围内的可靠操作 ...
我们揭示了大语言模型(LLM)中的内部表示可以作为所学知识的可靠代理,并提出了 RECALL,这是一种新颖的表示感知模型合并框架,用于在无需访问历史数据的情况下进行持续学习。 RECALL 根据聚类典型样本的分层隐藏表示来计算模型间相似性,并执行自适应的分层参数融合以对齐模型之间的知识。这种设计能够在浅层中保留领域通用特征,同时允许在更深的层中进行特定于任务的适应 ...
语义占用因其捕获丰富空间语义的能力而成为世界模型中的强大表示。然而,大多数现有的占用世界模型依赖于静态和固定的嵌入或网格,这本质上限制了感知的灵活性。此外,它们在网格上的“就地分类”表现出与真实http URL的动态和连续性质潜在的不一致。在本文中,我们提出了SparseWorld,一种新颖的4D占用世界模型,它灵活、自适应且高效,由稀疏和动态查询提供支持 ...
人类通常依靠记忆来执行任务,但大多数机器人策略缺乏这种能力;我们的目标是赋予机器人策略同样的能力。在协变量平移下,对长期观测历史的天真调节在计算上是昂贵且脆弱的,而对历史的不加区别的子采样会导致不相关或冗余的信息。我们提出了一个分层策略框架,其中高级策略经过训练,可以根据其经验选择和跟踪先前的相关关键帧 ...
知识蒸馏(KD)已成功应用于各种任务,主流方法通常通过空间模仿损失来提升学生模型。然而,教师模型在空间域中引起的连续下采样是一种腐败,阻碍了学生分析需要模仿哪些特定信息,从而导致准确性下降。为了更好地理解损坏的特征图的潜在模式,我们将注意力转移到频域 ...
随着大型语言模型(LLM)的参数大小不断扩大,对大内存占用和高通信带宽的需求已成为LLM训练和推理的重大瓶颈。为了缓解这些瓶颈,人们提出了各种张量压缩技术来减小数据大小,从而减轻内存需求和通信压力。我们的研究发现,视频编解码器尽管最初是为压缩视频而设计的,但在压缩各种类型的张量时表现出出色的效率 ...
事实证明,社交推荐可以利用社交网络有效解决用户-项目交互建模中的数据稀疏问题。最近图神经网络(GNN)的集成进一步提高了当代社交推荐算法的预测准确性。然而,许多基于 GNN 的社交推荐方法缺乏为其预测提供有意义的解释的能力 ...
通过扩展模型大小和训练数据,大型视觉语言模型 (LVLM) 在多模式任务中表现出了卓越的性能。然而,这些密集的 LVLM 会产生大量的计算成本,并激发了对稀疏专家混合 (MoE) 架构的探索。虽然 MoE 提高了参数效率,但有效应用 MoE 来同时对 LVLM 中的模态特定特征和跨模态关联进行建模仍然具有挑战性 ...