混响在音乐制作中起着至关重要的作用,在音乐制作中,它为听众提供了音乐的空间认识,音色和音乐的质感。然而,即使是熟练的工程师,重现参考音乐曲目的音乐混响也是一个挑战。作为回应,我们提出了一个端到端系统,能够切换两个不同混合声带的音乐混响系数 ...
涉及机器人臂的现实世界操纵数据对于制定通才行动政策至关重要,但是由于现有数据收集方法受到高成本,硬件依赖性和复杂的设置要求的阻碍,因此此类数据仍然很少。在这项工作中,我们介绍了Fastumi,这是通用操纵界面(UMI)系统的实质性重新设计,该系统通过启用快速部署,简化硬件软件集成并在现实世界数据采集中提供了良好的性能来解决这些挑战。与UMI相比,Fastumi具有多个优点:1)它采用了脱钩的硬件设计,并结合了广泛的机械修改,消除了对专门的机器人组件的依赖性,同时保留了一致的观察角度 ...
确保一致性是指使模型按照人类意图行事[1,2],在将大型语言模型(LLM)(LLMS)在现实世界应用中部署之前已成为一项关键任务。例如,Openai在发布之前将六个月用于迭代对准GPT-4 [3]。但是,从业人员面临的主要挑战是缺乏评估LLM输出是否与社会规范,价值观和法规保持一致的明确指南 ...
图形用户界面(GUI)代理已经成为人类计算机交互中的变革范式,从基于规则的自动化脚本到能够理解和执行复杂接口操作的复杂的AI驱动系统。这项调查提供了对基于LLM的GUI代理快速前进的领域的全面检查,系统地分析了其建筑基础,技术组成部分和评估方法。我们识别并分析了构成现代GUI代理的四个基本组件:(1)将基于文本的解析与多模式理解相结合的感知系统,以实现全面的界面理解; (2)通过内部建模,历史经验和外部信息检索来构建和维护知识库的探索机制; (3)计划将高级推理方法用于任务分解和执行的框架; (4)通过强大的安全控制来管理动作产生的交互系统 ...
用于自主驾驶(AD)的大型视觉模型(VLM)正在发展超出感知和认知任务,以实现运动计划。但是,我们在这个方向上确定了两个关键的挑战:(1)VLM倾向于通过严重依靠历史记录输入信息来学习捷径,从而实现了看似强大的计划结果,而无需真正理解视觉输入; (2)经过思考的(COT)推理过程总是与运动计划成果不一致,以及如何有效利用复杂的推理能力来增强计划的能力,这在很大程度上仍未得到充满激励。在本文中,我们从小型域特异性VLM开始,并提出了驱动-R1,旨在桥接AD的方案推理和运动计划 ...
准确的作用推断对于基于视觉的机器人操作至关重要。现有的方法通常遵循视觉行动(V-A)范式,直接从视觉输入中预测动作,或者愿景到3D-TO-TO-TO-TO-ECTION(V-3D-A)范式,利用中间3D表示。但是,由于操纵场景的复杂性和动态性质,这些方法通常在行动不准确的情况下困难 ...
在单标签分类的背景下,尽管深度学习取得了巨大的成功,但常用的跨透明损失函数忽略了经常存在于现实生活任务(例如年龄分类)中的复杂的阶层间关系。在这项工作中,我们建议通过用精确的平方地球移动器的距离(也称为Wasserstein距离)来利用类之间的这些关系,以进行单标签分类。平方EMD损失使用所有类别的预测概率,并根据地面距离矩阵量化了量化阶级之间差异的地面距离矩阵 ...
图像自适应查找表(LUTS)由于对颜色变换进行建模的高效率,在实时图像增强任务中取得了巨大的成功。但是,他们以耦合方式将完整的变换嵌入了仅颜色组件独立于颜色的部分和与组件相关的部分,仅以1D或3D的形式嵌入到单一类型的LUT中。由于两个因素,该方案提高了改善模型表现力或效率的困境 ...
来自单眼视频的人类网格重建(HMR)在人类机器人的互动与协作中起着重要作用。但是,现有的基于视频的人网状重建方法在准确的重建和平稳运动之间面临着权衡。这些方法基于RNN或注意机制设计网络,以提取本地时间相关性或全球时间依赖性,但是缺乏互补的长期信息和本地细节会限制其性能 ...
已经提出了许多关键点检测和描述方法用于图像匹配或注册。尽管这些方法证明了单模性图像匹配的有希望的性能,但它们通常在多模式数据上挣扎,因为对单模式数据训练的描述符往往缺乏针对多模式数据中存在的非线性变化的鲁棒性。将这种方法扩展到多模式图像匹配通常需要良好的多模式数据来学习模态不变的描述符 ...