从车内摄像机捕获的拥挤观察中揭示一条空旷的街道对于自动驾驶至关重要。但是,删除所有暂时的静态物体,例如停止的车辆和站立行人,提出了重大挑战。与以对象为中心的3D插入式介绍不同,这依赖于在一个小场景中进行详尽的观察,街道场景案例涉及与以前3D授课任务不同的长轨迹 ...
随着视觉模型(VLM)的不断增长,移动代理现在被广泛用于UI自动化和基于相机的用户帮助等任务。这些代理通常会在有限的用户生成的数据集上进行微调,使它们在培训过程中容易受到秘密威胁的影响。在这项工作中,我们提出了Ghost,这是第一次专为基于VLMS的移动代理而设计的清洁标签后门攻击 ...
鉴于由于计算限制,对所有候选人的微调不切实际,开源大型语言模型(LLM)和多样化的下游任务的扩散需要有效的模型选择。尽管LLM选择最近取得了进步,但基本的研究问题基本上仍然是新生的:我们如何在微调过程中对LLM的动态行为进行建模,从而增强我们对它们在各种下游任务中的概括性能的理解?在这项工作中,我们提出了一个新颖的理论框架,该框架提供了适当的镜头来评估LLM的概括能力,从而为下游应用提供了准确有效 ...
多模式大语言模型(MLLM)的最新进步在视觉问题回答中的性能显着提高。但是,他们经常患有幻觉。在这项工作中,幻觉分为两种主要类型:初始幻觉和雪球幻觉 ...
我们考虑了从商品手持设备中获得的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制 ...
材料科学和工程等领域应用领域应用的大型语言模型(LLM)的进步取决于制定适应专业技术能力的微调策略。在这项工作中,我们探讨了持续预处理(CPT),监督微调(SFT)以及各种基于偏好的优化方法,包括直接偏好优化(DPO)和优势比偏好优化(ORPO)对微型LLM绩效的影响。我们的分析表明,这些策略如何影响模型的结果,并揭示了多个微调模型的合并可以导致超过父模型的个人贡献的能力的出现 ...
图数据完成是一个根本重要的问题,因为数据通常具有图形结构,例如社交网络,推荐系统和物联网 ...
考虑到硬件友好的特性和广泛的适用性,结构化修剪已成为一种有效的解决方案,以减少资源约束设备上大型语言模型(LLMS)的资源需求。传统的结构化修剪方法通常需要微调来恢复性能损失,这会导致高内存开销和实质性数据要求,从而使它们不适合在设备应用程序中。此外,训练后结构化修剪技术通常需要特定的激活功能或架构修饰,从而限制其应用程序范围 ...