联网自动驾驶车辆(CAV)的协作轨迹规划的发展已经获得了相当大的动力和研究关注。一般来说,此类问题具有很强的非线性和非凸性,给寻找最优解带来很大困难。现有方法通常计算效率低,这阻碍了在涉及车辆数量不断增加的大规模场景中的适当应用 ...
最近,Zero-1-2-3 等方法专注于基于单视图的 3D 重建,并取得了显着的成功。然而,他们对看不见的区域的预测严重依赖于大规模预训练扩散模型的归纳偏差。尽管 DreamComposer 等后续工作试图通过合并额外的视图来使预测更加可控,但由于原始潜在空间中的特征纠缠(包括光照、材质和结构等因素),结果仍然不切实际 ...
近年来,蛋白质基础模型的发展激增,显着提高了从 3D 结构预测和蛋白质设计到构象动力学的蛋白质预测和生成任务的性能。然而,由于缺乏统一的评估框架,人们对这些模型的功能和局限性仍然知之甚少。为了填补这一空白,我们引入了 ProteinBench,这是一个旨在提高蛋白质基础模型透明度的整体评估框架 ...
无分类器引导(CFG)已成为提高条件扩散模型质量的标准方法。然而,采用 CFG 需要与主扩散模型一起训练无条件模型,或者通过定期插入空条件来修改训练过程。 CFG 也没有明确扩展到无条件模型 ...
弱监督时间动作定位(WTAL)旨在仅使用视频级注释来检测未修剪视频中的动作实例。由于许多现有的工作基于动作分类标签来优化WTAL模型,因此它们遇到了任务差异问题(即) ...
专家混合 (MoE) 是一种神经网络架构,它将稀疏激活的专家块添加到基本模型中,从而在不影响计算成本的情况下增加参数数量。然而,当前的分布式深度学习框架在使用大型基础模型训练高质量 MoE 模型的能力方面受到限制。在这项工作中,我们提出了 DeepSpeed-TED,这是一种新颖的三维混合并行算法,它结合了数据、张量和专家并行性,能够使用比当前状态大 4 到 8 倍的基本模型来训练 MoE 模型。 ...
弱监督动作定位旨在识别和定位仅具有视频级标签的未修剪视频中的动作实例。大多数现有模型依赖于多实例学习(MIL),其中通过对标记包进行分类来监督未标记实例的预测。基于 MIL 的方法得到了相对充分的研究,在分类方面取得了令人信服的性能,但在定位方面却没有 ...
时态知识图(TKG)推理通常涉及沿着时间线完成缺失的事实元素。尽管现有方法可以通过整合时间信息来学习四元组中每个事实元素的良好嵌入,但它们通常无法推断时间事实的演变。这主要是因为(1)没有充分探索各个四元组内的内部结构和语义关系;(2)没有充分学习不同四元组之间上下文和时间相关性的统一表示 ...