股票预测旨在预测股票的未来趋势,以帮助投资者做出良好的投资决策。股票预测的传统解决方案基于时间序列模型。随着深度神经网络在建模顺序数据中的最新成功,深度学习已成为库存预测的有希望的选择 ...
在剪辑模型中增强文本和图像特征之间的对齐方式是零击工业异常检测任务中的一个关键挑战。最近的研究主要利用特定训练期间的特定类别提示,这可能会导致训练类别过度拟合并限制模型概括。为了解决这个问题,我们提出了一种方法,该方法通过多级盖该名称堆叠来转换类别名称以创建堆叠的提示,从而构成了我们的StackClip模型的基础 ...
扩散和流匹配模型具有明显的高级媒体生成,但是它们的设计空间经过了充分的探索,有些限制了进一步的改进。同时,自回归(AR)模型,尤其是那些生成连续 Token 的模型,已成为统一文本和媒体生成的有希望的方向。本文介绍了过渡匹配(TM),这是一种新型离散时间,连续状态的生成范式,它统一和进步既可以扩散/流量模型又是连续的AR产生 ...
现实世界中的对象检测系统,例如自动驾驶和监视的系统,必须不断学习新的对象类别,并同时适应不断变化的环境条件。现有方法,类增量对象检测(CIOD)和域增量对象检测(DIOD)仅解决此挑战的一个方面。 CIOD在看不见的领域中挣扎,而DIOD在学习新课程时遭受了灾难性的遗忘,从而限制了其现实世界的适用性 ...
6G中连接的设备的激增,典型的复杂任务需要多用户合作,例如智能农业和智能城市,对不可持续的传统沟通构成了重大挑战。幸运的是,蓬勃发展的人工智能技术和设备不断增长的计算能力提供了有希望的6G启用器:语义通信(SEMCOM)。但是,现有的基于深度学习的SEMCOM范式很难扩展到多用户方案,因为它的模型大小随着用户数量的增加及其与复杂的通信环境的兼容性有限 ...
视觉语言导航(VLN)是开发可以遵循自然语言指令进行自然语言指令以在复杂的现实世界环境中导航的重要任务。与传统方法相比,大型预审预周审经模型在VLN的最新进展已大大改善了概括和指导基础。然而,尽管经过思考链(COT)推理在视觉问题回答等静态任务中表现出了成功,但推理策略在导航中的作用却没有被驱散 ...
我们提出了空间librispeech,这是一个空间音频数据集,具有超过650个小时的19通道音频,一阶Ambisonics和可选的干扰器噪声。空间LibrisPeech专为机器学习模型培训而设计,其中包括用于源位置,说话方向,房间声学和几何形状的标签。通过增强8K+合成室中具有200K+模拟的声学条件的Librispeech样品来生成空间librispeech ...
图形神经网络(GNN)的成功导致需要理解其决策过程并为其预测提供解释,这导致了可解释的AI(XAI),该AI(XAI)为黑盒模型提供了透明的解释。最近,原型的使用成功地通过学习原型来成功提高了模型的解释性,以暗示影响预测的训练图。但是,这些方法倾向于从整个图中提供原型过多的信息,从而排除关键子结构或包含无关的子结构,这可以限制模型在下游任务中的可解释性和性能 ...