本文解决了多维时间序列数据的多标签预测性故障分类问题。尽管在文献中已经对故障(事件)检测问题进行了彻底的研究,但大多数最先进的技术无法可靠地预测所需的未来视野中的故障(事件)。在这些类型的问题的最一般设置中,可以从有限的已知集合中分配多个时间序列的一个或多个数据样本,并且任务是预测在所需的时间范围内发生故障的可能性 ...
近年来,基于 Transformer 的大型视频编码器模型在视频分类任务上具有非常高级的最新性能。但是,这些大型模型通常通过平均从多个剪辑中的嵌入输出来处理视频,以产生固定长度表示。这种方法无法说明各种时间相关的功能,例如可变视频持续时间,事件的时间顺序以及特征意义的时间差异 ...
在大型语言模型(LLM)发展中,数学推理仍然是一个关键的挑战。但是,由于缺乏访问培训数据的访问,使用LLM的数学推理中的大多数尖端进展已成为\ emph {封闭式}。缺乏数据访问使研究人员无法理解不同选择综合和利用数据的影响 ...
我们提出了一种在场景运动之前对图像空间进行建模的方法。我们的先验是从真实视频序列中提取的运动轨迹集合中学习到的,这些视频序列描绘了自然的振荡动态,例如树木、花朵、蜡烛和在风中摇曳的衣服。我们先在傅立叶域中对这种密集的长期运动进行建模:给定单个图像,我们训练的模型使用频率协调扩散采样过程来预测频谱体积,该频谱体积可以转换为跨越整个视频的运动纹理 ...
传统的对话状态跟踪(DST)问题旨在跟踪用户对话中的用户偏好和意图。尽管足以支持狭窄域应用程序的以任务为导向的对话系统,但大语模型的出现(LLM)的聊天系统已经在开放域中引入了许多现实世界中的复杂性。这些复杂性以上下文相互作用的复杂性增加的形式表现出来,扩展的对话会议包含各种主题,以及更频繁的上下文转移 ...
我们提出图像界,一种学习跨六个不同方式的关节嵌入的方法 - 图像,文本,音频,深度,热和IMU数据。我们表明,配对数据的所有组合对于训练这种联合嵌入并不是必需的,并且只有图像对数据足以将模态绑定在一起。 ImageBind可以通过使用与图像的自然配对来利用最近的大型视觉语言模型,并将其零击功能扩展到新的模式 ...
大型语言模型(LLM)需要高质量的指导数据才能有效对齐,尤其是在专家策划数据集生产昂贵的代码生成任务中。我们提出了遗传教学,这是一种可扩展的算法,用于使用进化原理综合大规模,高质量的编码指令。从一小部分种子说明开始,遗传学结构通过利用讲师-LLM的生成,代码合成的编码器-LLM以及自动质量评估的法官-LLM来产生多样化且具有挑战性的指示代码对 ...
如今,强大的大型语言模型(LLM)(例如Chatgpt)已经在各种任务中展示了革命性的力量。因此,随着LLMS变得更加先进和普遍,机器生成的文本(MGT)的检测变得越来越重要。这些模型具有生成类似人类的语言的能力,使识别文本是由人类还是机器撰写的具有挑战性 ...