我们研究了直觉物理学理解的出现,以通用的深度神经网络模型,该模型训练有素,可以预测自然视频中的掩盖区域。利用违反预测框架,我们发现经过训练的视频预测模型,可以预测在学会的表示空间中的结果,这表明了对各种直观物理属性的理解,例如对象的永久性和形状一致性。相比之下,像素空间和多模式大语言模型中的视频预测,这些模型通过文本进行推理,可以实现更接近机会的性能 ...
多模式大语言模型(MLLM)的最新进展已在各种多模式上下文中表现出显着的功能。但是,它们在机器人场景中的应用,特别是在长跑操纵任务中,揭示了重大局限性。这些局限性是由于当前缺乏三个必需机器人脑功能的MLLM出现的:计划能力,涉及将复杂的操作指令分解为可管理的子任务;负担能力,识别和解释交互对象的负担能力的能力;和轨迹预测,预见成功执行所需的完整操纵轨迹的远见 ...
扩散 Transformer 在图像和视频合成方面显示出显着的有效性,但代价是巨大的计算成本。为了解决这个问题,引入了特征缓存方法,通过缓存先前时间步中的特征并在接下来的时间步中重用它们来加速扩散变换器。然而,以前的缓存方法忽略了不同的 Token 对特征缓存表现出不同的敏感性,并且与其他 Token 相比,某些 Token 上的特征缓存可能会对整体生成质量造成 10$\times$ 的破坏 .. ...
了解来自多个文档集合的信息,尤其是具有视觉上丰富元素的文档的信息,对于文档的问题回答非常重要。本文介绍了Visdombench,这是第一个综合基准测试,旨在评估具有丰富多模式内容的多文档设置中的质量检查系统,包括表,图表和演示幻灯片。我们提出了visdomRag,这是一种新型的多式联运增强生成(RAG)方法,同时利用视觉和文本抹布,将强大的视觉检索能力与精致的语言推理相结合 ...
我们提出了一个原子模型,用于预测分层钼硫化物中掺杂电荷的分布(MOS $ _ {2} $)。该模型模仿每个离子周围的电荷作为净高斯空间分布的电荷加上诱导的偶极子,并能够预测在自sensissent方案中分层MOS $ _ {2} $中掺杂电荷的分布。单层MOS $ _ {2} $薄片中的掺杂电荷的概况与该电荷 - 偶极模型计算的片段与密度功能理论计算获得的电荷非常吻合 ...
体重平均的模型合并已成为深度学习的强大方法,能够在不进行微调或再培训的情况下增强模型性能。但是,解释其有效性的基本机制在很大程度上尚未探索。在本文中,我们从三个新颖的角度研究了这项技术,以提供更深入的见解,以了解如何以及为什么重量平均模型合并作用:(1)我们检查了通过学习模型权重的学习模型在几个数据集中的模型的可视化中所捕获的固有模式,表明这些权重经常编码结构化的结构性和可解释的模式; (2)我们 ...
随着多模式技术的普及,它获得了越来越多的兴趣,以获取视觉形式的有用信息。在这项工作中,我们正式定义了一种称为\ textIt {可视化信息检索}或\ textbf {vis-ir}的新兴IR范式,其中多模式信息(例如文本,图像,表格和图表)由称为\ textbf {sexenshots的统一视觉格式共同表示。我们进一步为Vis-Ir做出了三个关键贡献 ...
生成人工智能(GAI)和数字双胞胎(DT)是高级数据处理和虚拟化技术,可以彻底改变通信网络。由于GAI的强大数据处理能力,将其集成到DT中是一种构建智能整体虚拟化网络以更好地网络管理性能的潜在方法。为此,我们提出了一个GAI驱动的DT(GDT)网络体系结构,以实现智能的闭环网络管理 ...