从弱标记的(例如,图像标签)学习语义分割是具有挑战性的,因为很难从稀疏的语义标签中推断致密的对象区域 ...
深度学习彻底改变了计算机视觉,但它使用深层网络体系结构取得了巨大的成功,这些网络体系结构主要是手工制作的,因此很可能次优。神经体系结构搜索(NAS)旨在通过遵循定义明确的优化范式来弥合这一差距,该优化范式在鉴于客观标准(例如最大分类精度),该优化范式系统地寻找最佳体系结构。但是,NAS的主要局限性是其天文学计算成本,因为它通常需要从头开始训练每个候选网络体系结构 ...
本文已在2024 D&B曲目中接受。有害模因在中国互联网上激增,而研究中国有害模因的研究显着落后,因为没有可靠的数据集和有效的探测器。为此,我们专注于对中国有害模因的全面发现 ...
引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。由于其在视频编辑和人类代理互动中的有希望的应用,该任务引起了计算机视觉领域的越来越多的关注。最近,推荐通过从验证的基础图像模型中调整对象级视力语言知识,在这项任务中表现出了令人鼓舞的表现 ...
由于这些机器人的非线性,混合和高维质,因此很难实时计算稳定和最佳的控制动作。系统的混合性质引入了离散和连续变量的组合,这导致了数值最佳控制问题的问题。为了应对这些挑战,我们提出了一个分层体系结构,该体系结构将离散变量的选择和平滑模型预测控制器(MPC)分开 ...
由于观察/动作维度和系统动力学的差异,概括具有不同形态的不同腿部机器人的运动策略是一个关键挑战。在这项工作中,我们提出了一个新型的统一框架,将形态 - 静态生成扩散模型与通过强化学习(RL)优化的轻量级残留策略相结合的新型统一框架。扩散模型从不同的跨体数据集中捕获了形态不变的运动模式,从而改善了概括和鲁棒性 ...
深度学习表明了各种任务的有效性。但是,这些模型的致密和过度参数化的性质导致部署过程中的大量资源消耗。为了应对这个问题,重量修剪,特别是通过N:M弹力矩阵乘法,通过将密集的操作转换为半平等的操作提供了有效的解决方案 ...
语言模型的持续发展导致了大规模架构的发展,这些体系结构在各种任务中都表现出了出色的性能。但是,这些模型具有巨大的计算和能源需求以及潜在的隐私影响。在这种情况下,大约0的小推理语言模型(SRLMS) ...