从2D观察中推断3D场景的结构是计算机视觉中的基本挑战。最近,基于神经场景表征的最近普及的方法已经实现了巨大的影响,并已在各种应用中应用。在这个领域的剩余挑战之一是训练单个模型,该模型可以提供潜在的表示,从而有效地将其推广到一个场景之外 ...
尽管近年来,从廉价传感器中重建人的3D姿势已经显着提高,但量化了人类运动的动力学,包括肌肉生成的关节扭矩和外部力量,但仍然是一个挑战。由于缺乏具有高质量姿势和力量数据的数据集而导致了从重建的人类姿势中估算物理学的事先尝试。我们介绍AddBiomechanics数据集1 ...
机器人技术的最新进展集中在开发能够执行多项任务的通用策略。通常,这些策略利用预先训练的视觉编码器从当前观察中捕获关键信息。然而,以前的视觉编码器是在两幅图像对比学习或单幅图像重建上进行训练的,无法完美地捕获具体任务所必需的顺序信息 ...
尽管针对软件工程的语言模型(LMS)最近取得了进展,但收集培训数据仍然是一个重要的痛苦点。现有数据集很小,最多有11个或更少的GitHub存储库的培训实例。策划此类数据集的程序通常很复杂,需要数百小时的人工劳动;伴侣执行环境还占用了几种存储的数量,严重限制了它们的可扩展性和可用性 ...
我们如何使用周围的环境环境教人类机器人攀登楼梯并坐在椅子上?可以说,最简单的方法是仅向他们展示人类运动视频并将其喂给人形生物。我们介绍了VideoMimic,这是一种真正到现实的管道,挖掘了日常视频,共同重建了人类和环境,并为人类机器人制定了执行相应技能的人形机器人的全身控制策略。我们展示了我们对真实类人机器人的管道的结果,显示出稳健,可重复的上下文控制,例如楼梯上升和下降,坐姿和站立,坐在椅子和 ...
图形结构的数据在各个领域都变得越来越普遍,从而提高了对有效模型处理图形任务等有效模型的需求,例如节点分类和链接预测。传统的图形学习模型(例如图形神经网络(GNN))已取得了长足的进步,但是它们在处理图形数据方面的功能在某些情况下仍然有限。近年来,大型语言模型(LLM)已成为有前途的图形任务候选人,但是大多数研究主要集中在性能基准上,并且无法应对其更广泛的潜力,包括他们处理有限数据的能力,跨任务的可 ...
基础模型的时代已经彻底改变了AI研究,但是图形基础模型(GFM)仍然受到大规模图表的稀缺性的限制。传统的图形数据综合技术主要集中于简单的结构操作,缺乏具有有意义的文本属性的语义上丰富节点的能力:对现实世界应用的关键限制。尽管大型语言模型(LLMS)表现出非凡的文本生成能力,但它们在图形合成中的直接应用会受到上下文窗口限制,幻觉现象和结构一致性挑战的阻碍 ...
生成模型正在改变音乐生成等创意领域,并具有无分类器指导(CFG)的推理时间策略,扮演着至关重要的角色。但是,CFG的推理成本增加了一倍,同时限制了生成内容的原创性和多样性。在本文中,我们引入了多样性奖励的CFG蒸馏,这是一种新型的固定程序,可以在解决其局限性的同时提炼CFG的优势 ...