全部注意机制的二次复杂性为视频扩散模型(VDM)带来了重要的瓶颈,旨在生成长期的高分辨率视频。尽管已经提出了各种稀疏注意方法,但许多方法被设计为无训练的推理加速器,或者在本地训练时,视频数据固有的唯一时空特征固有的唯一时空特征。本文介绍了阻止注意力(VMOBA)的视频混合物,这是一种专门针对VDM的新型稀疏注意机制 ...
最近,大型语言模型(LLMS)在各种下游语言任务中表现出出色的表现。温度采样是LLMS生成过程的常用解码策略。但是,在大多数情况下,使用固定温度参数,这可能并不总是是平衡发电质量和多样性的最佳选择 ...
股票预测旨在预测股票的未来趋势,以帮助投资者做出良好的投资决策。股票预测的传统解决方案基于时间序列模型。随着深度神经网络在建模顺序数据中的最新成功,深度学习已成为库存预测的有希望的选择 ...
在剪辑模型中增强文本和图像特征之间的对齐方式是零击工业异常检测任务中的一个关键挑战。最近的研究主要利用特定训练期间的特定类别提示,这可能会导致训练类别过度拟合并限制模型概括。为了解决这个问题,我们提出了一种方法,该方法通过多级盖该名称堆叠来转换类别名称以创建堆叠的提示,从而构成了我们的StackClip模型的基础 ...
扩散和流匹配模型具有明显的高级媒体生成,但是它们的设计空间经过了充分的探索,有些限制了进一步的改进。同时,自回归(AR)模型,尤其是那些生成连续 Token 的模型,已成为统一文本和媒体生成的有希望的方向。本文介绍了过渡匹配(TM),这是一种新型离散时间,连续状态的生成范式,它统一和进步既可以扩散/流量模型又是连续的AR产生 ...
现实世界中的对象检测系统,例如自动驾驶和监视的系统,必须不断学习新的对象类别,并同时适应不断变化的环境条件。现有方法,类增量对象检测(CIOD)和域增量对象检测(DIOD)仅解决此挑战的一个方面。 CIOD在看不见的领域中挣扎,而DIOD在学习新课程时遭受了灾难性的遗忘,从而限制了其现实世界的适用性 ...
6G中连接的设备的激增,典型的复杂任务需要多用户合作,例如智能农业和智能城市,对不可持续的传统沟通构成了重大挑战。幸运的是,蓬勃发展的人工智能技术和设备不断增长的计算能力提供了有希望的6G启用器:语义通信(SEMCOM)。但是,现有的基于深度学习的SEMCOM范式很难扩展到多用户方案,因为它的模型大小随着用户数量的增加及其与复杂的通信环境的兼容性有限 ...
视觉语言导航(VLN)是开发可以遵循自然语言指令进行自然语言指令以在复杂的现实世界环境中导航的重要任务。与传统方法相比,大型预审预周审经模型在VLN的最新进展已大大改善了概括和指导基础。然而,尽管经过思考链(COT)推理在视觉问题回答等静态任务中表现出了成功,但推理策略在导航中的作用却没有被驱散 ...