有关参数效率转移学习(PETL)的最新著作表明,只有少数可学习的参数将预训练的视觉 Transformer 调整为下游识别任务的潜力。但是,由于它们通常将新结构插入预先训练的模型中,因此该模型的整个中间特征都会更改,因此需要存储以参与反向传播,从而导致内存重训练。我们从新颖的视角解决了这个问题,即 ...
多标签分类在现实世界中很普遍,但是在这种情况下,大型语言模型(LLM)的行为被研究了。我们通过分析每个一代步骤中模型的输出分布来研究自回旋的LLM如何执行多标签分类,重点关注主观任务。我们发现他们的预测行为反映了生成所有相关标签所需的基础语言建模中的多个步骤,因为它们在每个步骤中都倾向于抑制所有标签 ...
同时本地化和映射(SLAM)在于环境模型(地图)的并发结构,以及在其中移动的机器人状态的估计。在过去的30年中,SLAM社区取得了惊人的进步,实现了大规模的现实应用程序,并见证了该技术向行业的稳定过渡。我们调查了SLAM的当前状态 ...
代码的大型语言模型(LMS)最近在完成自然语言描述中完成代码和综合代码方面表现出了巨大的希望。但是,当前的最新代码LMS(例如 ...
热图像中的单眼深度估计(MDE)是在诸如雾,烟雾和弱光等具有挑战性条件下运行的机器人系统的至关重要技术。与基础RGB MDE模型相比,标记的热数据的有限可用性限制了热MDE模型的概括能力,该模型受益于各种场景中数百万图像的数据集。为了应对这一挑战,我们引入了一条新型的管道,该管道通过多功能RGB MDE模型通过知识蒸馏增强了热量MDE ...
自回归(AR)建模,以其下一句话的预测范式而闻名,是最先进的语言和视觉生成模型的基础。传统上,`` Token ''被视为最小的预测单元,通常是语言或视觉中量化贴片的离散符号。但是,2D图像结构的最佳 Token 定义仍然是一个空旷的问题 ...
文本到图像扩散生成模型可以以乏味的及时工程为代价产生高质量的图像。可以通过引入布局条件来提高可控性,但是现有方法缺乏布局编辑能力和对对象属性的细粒度控制。多层生成的概念具有解决这些局限性的巨大潜力,但是将图像实例同时生成场景组成限制了对细粒对象属性的控制,在3D空间和场景操作能力中相对定位 ...
3D占用预测对于强大的自主驾驶系统至关重要,因为它可以全面地感知环境结构和语义。大多数现有方法采用基于密集的体素的场景表示,忽略了驾驶场景的稀疏性,导致效率低下。最近的著作探索了基于稀疏高斯人的以对象为中心的表示,但它们的椭圆形形状先验限制了各种结构的建模 ...