我们提出OmniH2O(Omni人类到人类),这是一种基于学习的全身人形近亲和自主权的系统。 OmniH2O使用运动姿势作为通用控制界面,使人类可以用灵巧的手控制全尺寸的类人动物,包括通过VR耳机,口头说明和RGB摄像机使用实时远程操作。 Omnih2O还可以通过从远程手工演示中学习或与GPT-4等边境模型进行整合来实现完全的自主权 ...
为了跟上神经网络的不断增长的性能需求,专门的硬件(HW)加速器正在转向多核和chiplet架构。到目前为止,这些多加速器系统通过在不同核心上输入批处理的不同NN层来利用增加的并行性,以增加吞吐量。但是,在使用延迟关键应用程序的非批量逐层调度进行追求时,这无法完全利用可用的HW资源来朝着边缘的能源效率执行 ...
(lclm)(lclm)有可能彻底改变我们传统上依赖外部工具(如检索系统或数据库)的任务方法。利用lclm本地摄取和处理整个信息库的能力具有许多优势。它通过消除对工具专业知识的需求来增强用户友好性,提供强大的端到端建模,最大限度地减少复杂管道中的级联错误,并允许在整个系统中应用复杂的提示技术... ...
一致性训练(CT)最近成为扩散模型的有前途的替代方案,在图像生成任务中实现了竞争性能。但是,非降级一致性训练通常会遭受较高的差异和不稳定性的影响,并且分析和改善其训练动态是一个积极的研究领域。在这项工作中,我们根据流匹配框架提出了一种新型的CT训练方法 ...
我们开源MIMO-VL-7B-SFT和MIMO-VL-7B-RL,这是两个强大的视觉语言模型,在一般的视觉理解和多模式推理方面提供了最先进的性能。 MIMO-VL-7B-RL的表现优于40个评估任务中的35个QWEN2.5-VL-7B,得分为59 ...
The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions
大型语言模型的安全一致行为(例如拒绝有害查询)可以用激活空间中的线性方向表示。先前的研究将安全行为模拟了一个方向,将机械理解限制在孤立的安全特征上。在这项工作中,我们发现与安全符合的行为由多维方向共同控制 ...
近年来,3D开放式摄影场景的理解能够准确地感知到空间中物体的复杂语义特性。在本文中,我们提出了插科打术,该框架将2D夹子提炼为3D高斯裂缝,从而在任意观点上实现了对渲染的开放量查询。蒸馏2D功能的主要挑战在于提取的2D功能的多视图不一致,这为3D功能字段提供了不稳定的监督 ...
本文研究了从预先训练的模型,尤其是蒙面自动编码器中提取知识的潜力。我们的方法很简单:除了优化掩盖输入上的像素重建损失外,我们还将教师模型的中间特征图与学生模型的中间特征图之间的距离最小化。该设计导致一个计算高效的知识蒸馏框架,给定1)仅使用一个少量可见的贴片子集,2)(繁琐的)教师模型仅需要部分执行,即在前几层中向前传播输入,以获取中间标志 ...