交通信号控制是一个重要且具有挑战性的现实问题,旨在通过协调其在道路交叉点的行动来最大程度地减少车辆的行程。当前使用的流量信号控制系统仍然在很大程度上依赖于过度简化的信息和基于规则的方法,尽管我们现在拥有更丰富的数据,更多的计算能力和高级方法来推动智能运输的开发。随着对智能运输的兴趣日益增长,使用机器学习方法(例如增强学习),该调查涵盖了广泛认可的运输方法以及有关交通信号控制加强的最新文献清单 .. ...
尽管当前语言模型(LMS)在复杂的任务上具有令人印象深刻的性能,但通常以真空运行:每个输入查询都会单独处理,而无需保留以前尝试的见解。在这里,我们提出了动态备忘单(DC),这是一个轻巧的框架,它赋予了一个具有持久,不断发展的内存的黑盒LM。 DC没有反复重新发现或重新发现相同的解决方案和错误,而是使模型能够在推理时期存储和重复使用累积的策略,代码段以及一般解决问题的见解 ...
检测将对象识别为图像中的轴对齐框。大多数成功的物体检测器都会列举出几乎详尽的潜在物体位置列表,并对每个物体进行分类。这是浪费、低效的,并且需要额外的后处理... ...
大规模数据集的可用性有助于释放深卷积神经网络(CNN)的真正潜力。但是,对于单形图像降解问题,捕获真实数据集是一个不可接受的昂贵且繁琐的过程。因此,图像deno的算法主要是在合成数据上开发和评估的,这些数据通常以广泛的假设为添加剂白色高斯噪声(AWGN)产生 ...
随着对大语言模型(LLM)和AI代理的需求迅速增长,为有效的LLM推理的优化系统变得至关重要。尽管重大努力针对系统级工程,但通过数学建模和排队的角度探索了很少的努力。在本文中,我们旨在开发LLM推论的排队基础,弥合排队和LLM系统社区之间的差距 ...
最近,许多作品将3D摄像机控制装置集成到基础文本到视频模型中,但是所得的摄像机控制通常不精确,视频生成质量受到了损失。在这项工作中,我们从第一原理的角度分析了相机运动,发现了可以在不损害合成质量的情况下进行精确的3D摄像头操作的见解。首先,我们确定视频中相机运动引起的运动是自然界的低频 ...
在本文中,我们提出了一个新颖的视觉参考提示(VRP)编码器,该编码器授权该段的任何模型(SAM)利用带注释的参考图像作为分割的提示,创建VRP-SAM模型。本质上,VRP-SAM可以利用带注释的参考图像来理解特定对象并在目标图像中对特定对象进行分割。请注意,VRP编码器可以为参考图像提供多种注释格式,包括\ textbf {point},\ textbf {box},\ textbf {scrib ...
对比语言图像预训练 (CLIP) 是一种在计算机视觉领域拥有先进研究和应用的方法,为现代识别系统和生成模型提供了动力。我们相信 CLIP 成功的主要因素是它的数据,而不是模型架构或预训练目标。然而,CLIP 仅提供有关其数据及其收集方式的非常有限的信息,从而导致了旨在通过使用其模型参数进行过滤来重现 CLIP 数据的工作 ...