一译 —— 文档和论文翻译、对照阅读、讨论和社区

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation

整合视觉理解和发电能力的统一视觉模型（VLM）的最新进展引起了极大的关注。基本的假设是，对理解和生成任务进行混合培训的统一体系结构可以在理解和产生之间相互增强。但是，该假设在统一VLM的先前工作中仍未得到充实 ...

0 0 0 2025/05/30 arXiv:2505.23043v1 Lewandofski

Document-level Claim Extraction and Decontextualisation for Fact-Checking

选择哪些要求检查是人类事实检查者的一项耗时的任务，尤其是从包含多个句子和包含多个索赔的文件中。但是，现有的索赔提取方法更多地集中在识别和提取个人句子中的索赔，例如 ...

0 0 0 2025/05/30 arXiv:2406.03239v2 Cantaloupe

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

多模式大语言模型（MLLM）的最新进展显示出令人鼓舞的结果，但是现有的方法很难同时有效地处理时间和空间定位。这一挑战源于两个关键问题：首先，结合时空定位引入了大量的坐标组合，使语言和视觉坐标表示的对齐变得复杂；其次，在视频功能压缩过程中编码细粒度的时间和空间信息本质上是困难的。为了解决这些问题，我们提出了LLAVA-ST，这是一种用于良好的时空多模式理解的MLLM ...

0 0 0 2025/05/30 arXiv:2501.08282v1 1737648397

Incorporating External Knowledge and Goal Guidance for LLM-based Conversational Recommender Systems

本文旨在有效地使大型语言模型（LLMS）在对话推荐系统（CRS）任务中使用外部知识和目标指导。高级LLM（例如 ...

0 0 0 2025/05/30 arXiv:2405.01868v1 lonelywolf

LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

这项研究揭示了多轮交互中大型语言模型（LLM）的安全漏洞，其中恶意用户可以掩盖多个查询中的有害意图。我们介绍了 ActorAttack，这是一种受行动者网络理论启发的新型多轮攻击方法，它将语义链接的行动者网络建模为攻击线索，以生成针对有害目标的多样化且有效的攻击路径。 ActorAttack 解决了多轮攻击中的两个主要挑战：(1) 通过创建有关攻击者的无害对话主题来隐藏有害意图，以及 (2) 通过 ...

0 0 0 2025/05/30 arXiv:2410.10700v2 dm616703

YOLOv12 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once (YOLO) Series

这篇综述系统地研究了您只看一次（YOLO）对象检测算法从Yolov1到最近揭幕的Yolov12的进展。该研究采用反向时间顺序分析，研究了Yolo算法引入的进步，从Yolov12开始，并通过Yolo11（或Yolov11），Yolov11），Yolov11，Yolov9，Yolov9，Yolov8，以及随后的版本，以探索每个版本对增强速度，检测速度，检测准确性准确效率和计算对象的贡献。此外，这项研究 ...

0 0 0 2025/05/30 arXiv:2406.19407v6 zhuizhu

Gramian Multimodal Representation Learning and Alignment

人类的看法将视觉，听力和语言等多种方式融入了对周围现实的统一理解。尽管最近的多模式模型通过通过对比度学习对齐方式取得了重大进展，但在扩展到多种方式时，它们的解决方案不合适。这些模型通常将每种模式与指定的锚点保持一致，而不会确保彼此之间的所有模式对齐，从而在需要共同理解多种模态的任务中表现出色 ...

0 0 0 2025/05/30 arXiv:2412.11959v2 lizijian9630

MAAT: Mamba Adaptive Anomaly Transformer with association discrepancy for time series

时间序列中的异常检测对于工业监测和环境传感至关重要，但是将异常与复杂模式区分开来仍然具有挑战性。现有的方法（例如异常 Transformer 和DCDETECTOR）已经取得了进展，但是它们面临着诸如对短期环境的敏感性以及嘈杂，非平稳环境的效率低下的限制。为了克服这些问题，我们介绍了MAAT，这是一种改进的体系结构，可增强关联差异建模和重建质量 ...

0 0 6 2025/05/30 arXiv:2502.07858v3 lijng

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）