大规模数据推动了机器人技术的突破,从语言模型到双手操作中的视觉-语言-动作模型。然而,人形机器人缺乏同样有效的数据收集框架。现有的人形远程操作系统要么使用解耦控制,要么依赖昂贵的动作捕捉设置 ...
缩放模型的规模和培训数据已导致大语言模型(LLM)的性能取得了长足进步。但是,这种方法的回报减少需要替代方法来提高模型功能,尤其是在需要高级推理的任务中。利用长长的思想链的大型推理模型为解决问题的能力带来了前所未有的突破,但与长代相关的大量部署成本 ...
多模态分子表示学习联合对分子图及其文本描述进行建模,通过整合结构和语义信息,对药物毒性、生物活性和理化性质进行更稳健和可靠的预测,从而提高预测准确性和可解释性。然而,现有的多模态方法存在两个关键限制:(1)它们通常仅在最终编码器层执行跨模态交互,从而忽略了层次语义依赖性; (2)它们缺乏统一的原型空间来实现模态之间的稳健对齐。为了解决这些限制,我们提出了 ProtoMol,一种原型引导的多模式框架 ...
多模态扩散变换器 (MMDiT) 中旋转位置嵌入 (RoPE) 的集成显着提高了文本到图像的生成质量。然而,自注意力层在生成过程中对位置嵌入与查询键相似性的基本依赖仍然是一个有趣的问题。我们首次对基于 RoPE 的 MMDiT 模型进行了机制分析(例如 ...
大型推荐模型通过编码或项目生成将LLM扩展为强大的推荐器,而LLM推理的最新突破也同步激发了对推荐推理的探索。在这项工作中,我们提出了 R$^2$ec,一个具有内在推理能力的统一大型推荐模型。 R$^2$ec引入了双头架构,在单个模型中支持推理链生成和高效项目预测,显着降低推理延迟 ...
多头注意力 (MHA) 的二次计算和线性增长的 KV 缓存使得长上下文转换器的训练和服务成本高昂。分组查询注意力(GQA)和多潜在注意力(MLA)等先前的工作缩小了缓存,加快了解码速度,但决定预填充和训练速度的计算基本保持不变。我们引入压缩卷积注意力(CCA),这是一种新颖的注意力方法,它向下投影查询、键和值,并在共享潜在空间内执行整个注意力操作 ...
深度图像恢复模型旨在学习从退化图像空间到自然图像空间的映射。然而,它们面临着几个关键挑战:消除退化、生成逼真的细节以及确保像素级一致性。随着时间的推移,出现了三大类方法,包括基于 MSE、基于 GAN 和基于扩散的方法 ...
扩散模型由于能够表示动作和轨迹的多模态分布,因此在规划和控制任务中显示出巨大的潜力。然而,确保约束下的安全仍然是扩散模型的一个关键挑战。本文提出了约束扩散器,这是一种新颖的框架,它将约束纳入预先训练的扩散模型中,无需重新训练或架构修改 ...