视觉语言动作(VLA)模型对物理世界中通才的机器人操纵表现出了巨大的希望。但是,现有模型仅限于机器人观察和纯文本说明,因此缺乏通过数字世界中基础模型的最新进展来实现交错的多模式说明的灵活性。在本文中,我们提出了Interleave-VLA,这是一个能够理解交织的图像文本指令并直接在物理世界中生成连续的动作序列的框架 ...
大型多模型在多模式任务中表现出色,但由于视觉 Token 上的过度计算,面临着重大的计算挑战。与集中在 Token 级别的冗余上的标记减少方法不同,我们识别和研究视觉 Token 上的计算级冗余,以确保没有信息丢失。我们的关键见解是,预验证的视觉编码器的视觉 Token 并不一定需要所有重型操作(e ...
语言模型(LM)代理越来越多地用于自动化数字环境中复杂的任务。正如人类从功能强大的软件应用程序(例如集成开发环境)中受益于软件工程等复杂任务一样,我们认为LM代理代表具有自己的需求和能力的最终用户类别,并且将从专门建立的界面中受益于他们使用的软件。我们研究界面设计如何影响语言模型代理的性能 ...
人类通过将各种实例映射到抽象表示的同时,在保留意义(例如,罗宾和蓝鸟都是鸟是鸟类;大多数鸟都可以飞行的同时,将知识通过语义压缩组织成紧凑的类别 ...
我们提出了一个基于在视频框架级别上应用的轻巧掩盖自动编码器(AE)的有效异常事件检测模型。提议的模型的新颖性是三倍。首先,我们根据运动梯度引入了一种重量 Token 方法,从而将焦点从静态背景场景转移到前景对象 ...
超导纳米线单光子检测器(SNSPD)已成为必不可少的设备,它们以前所未有的灵敏度,超高的时序精度和宽光谱响应来推动光子检测的边界。材料工程,超导电子集成和低温系统设计的最新进展正在使SNSPD从单像素检测器转向可伸缩阵列和大型单光子时间标记摄像机。这篇观点文章调查了这一过渡的基础的快速发展的技术格局,重点是创新的超导材料,高级多路复用读取方案和新兴的冷冻兼容电子设备 ...
在许多段落检索任务中,基于预训练的语言模型(例如,BERT)的深度检索模型比词汇检索模型(例如,BM25)实现了优越的性能。但是,已经完成了有限的工作,将深度检索模型推广到其他任务和域。在这项工作中,我们仔细选择了五个数据集,包括两个域内数据集和三个具有不同域移动级别的室外数据集,并在零弹位设置中研究了深层模型的概括 ...
我们介绍了漫画Pymorph光度值添加目录(MPP-VAC-DR17)和漫画深度学习形态VAC(MDLM-VAC-DR17),用于漫画调查的最终数据发布,这是SDSS数据版本17(DR17)的一部分。 MPP-VAC-DR17提供的光度参数从sèrsic和sèrsic+指数拟合到$ g $,$ r $和$ i $ bands中的漫画DR17 Galaxy样品的2D表面亮度配置文件(例如, ...