本文介绍了一般机器人操纵的Visuomotor模仿学习政策,该政策会产生精确的,高维的动作,以各种视觉,语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配,以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式,我们提出了DIT-X,这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件,可以在动作 Token 和多模式观察之间进 ...
最近的文本到图像生成模型,例如稳定的扩散V3和Flux,取得了显着的进步 ...
输入空间重建是一个有吸引力的表示范式。尽管重建和产生的解释性可以解释性,但我们确定了通过重建学习与学习学习之间的错位。我们表明,前者将模型的能力分配给数据的子空间,解释了观察到的方差 - 这是一个具有不明智特征的子空间 ...
本报告详细介绍了MERL在ICASSP 2025上提交给生成数据增强研讨会的室内冲动响应(RIR)估计的系统,以增加RIR数据(任务1)和改进扬声器距离估计(任务2)。我们首先在外部大规模数据集上预先培训,由房间几何形状调节的神经声场,其中提供了一对RIR和几何形状。然后,通过使用注册数据将神经声场调整为每个目标室,在这里我们利用所提供的室几何形状或从外部数据集检索到的几何形状,具体取决于可用性 ...
编织是语音增强(SE)的重要子任务,以提高信号的清晰度和质量。但是,它仍然具有挑战性,因为混响与信号高度相关。此外,单渠道SE文献主要集中在混响时间短(通常不到1秒以下)的房间上,较小的房间(低于1000立方米)和相对较短的距离(最大2米) ...
检索增强的一代(RAG)通过合并外部知识来减轻LLM中的幻觉,但依赖于缺乏结构语义的基于块的检索。 GraphRag方法通过将知识作为实体关联图建模来改善抹布,但仍面临高建筑成本,固定的一次性检索以及对长篇文化推理和及时设计的依赖的挑战。为了应对这些挑战,我们建议通过端到端强化学习(RL)的Graph-R1(Agrage-R1) ...
连接和自动化车辆(CAV)的正确运行对于未来智能运输系统的安全性和效率至关重要。同时,过渡到完全自主驾驶需要长时间的混合自主流量,包括骑士和人类驱动的车辆。因此,为骑士的协作决策对于产生适当的驾驶行为至关重要,以提高混合自主流量的安全性和效率 ...
在固定和已知降解的假设(例如,双子型下采样)的假设下,最近的RGB引导深度超分辨率方法已实现了令人印象深刻的性能 ...