整合视觉理解和发电能力的统一视觉模型(VLM)的最新进展引起了极大的关注。基本的假设是,对理解和生成任务进行混合培训的统一体系结构可以在理解和产生之间相互增强。但是,该假设在统一VLM的先前工作中仍未得到充实 ...
选择哪些要求检查是人类事实检查者的一项耗时的任务,尤其是从包含多个句子和包含多个索赔的文件中。但是,现有的索赔提取方法更多地集中在识别和提取个人句子中的索赔,例如 ...
多模式大语言模型(MLLM)的最新进展显示出令人鼓舞的结果,但是现有的方法很难同时有效地处理时间和空间定位。这一挑战源于两个关键问题:首先,结合时空定位引入了大量的坐标组合,使语言和视觉坐标表示的对齐变得复杂;其次,在视频功能压缩过程中编码细粒度的时间和空间信息本质上是困难的。为了解决这些问题,我们提出了LLAVA-ST,这是一种用于良好的时空多模式理解的MLLM ...
本文旨在有效地使大型语言模型(LLMS)在对话推荐系统(CRS)任务中使用外部知识和目标指导。高级LLM(例如 ...
这项研究揭示了多轮交互中大型语言模型(LLM)的安全漏洞,其中恶意用户可以掩盖多个查询中的有害意图。我们介绍了 ActorAttack,这是一种受行动者网络理论启发的新型多轮攻击方法,它将语义链接的行动者网络建模为攻击线索,以生成针对有害目标的多样化且有效的攻击路径。 ActorAttack 解决了多轮攻击中的两个主要挑战:(1) 通过创建有关攻击者的无害对话主题来隐藏有害意图,以及 (2) 通过 ...
这篇综述系统地研究了您只看一次(YOLO)对象检测算法从Yolov1到最近揭幕的Yolov12的进展。该研究采用反向时间顺序分析,研究了Yolo算法引入的进步,从Yolov12开始,并通过Yolo11(或Yolov11),Yolov11),Yolov11,Yolov9,Yolov9,Yolov8,以及随后的版本,以探索每个版本对增强速度,检测速度,检测准确性准确效率和计算对象的贡献。此外,这项研究 ...
人类的看法将视觉,听力和语言等多种方式融入了对周围现实的统一理解。尽管最近的多模式模型通过通过对比度学习对齐方式取得了重大进展,但在扩展到多种方式时,它们的解决方案不合适。这些模型通常将每种模式与指定的锚点保持一致,而不会确保彼此之间的所有模式对齐,从而在需要共同理解多种模态的任务中表现出色 ...
时间序列中的异常检测对于工业监测和环境传感至关重要,但是将异常与复杂模式区分开来仍然具有挑战性。现有的方法(例如异常 Transformer 和DCDETECTOR)已经取得了进展,但是它们面临着诸如对短期环境的敏感性以及嘈杂,非平稳环境的效率低下的限制。为了克服这些问题,我们介绍了MAAT,这是一种改进的体系结构,可增强关联差异建模和重建质量 ...