视觉异常检测(AD)由于异常数据样本的稀缺而提出了重大挑战。尽管已经提出了许多综合异常样本的作品,但这些合成异常通常缺乏真实性或需要广泛的培训数据,从而限制了它们在现实世界中的适用性。在这项工作中,我们提出异常(异常),这是一个充分利用稳定扩散(SD)的图像产生能力的新型框架,以产生多样化和现实的看不见的异常 ...
0 1 0 2025/05/30 arXiv:2406.01078v3 枫呱呱
尽管预训练的多模式表示(例如剪辑)表现出令人印象深刻的功能,但它们表现出明显的组成脆弱性,导致违反直觉判断 ...
0 0 0 2025/05/30 arXiv:2505.22943v1 haoyi199815
随着数据隐私问题的越来越多,联邦学习已成为训练机器学习模型而不共享本地分布数据的有前途的框架。在联合学习中,只有通过模型参数共享重复多个客户端的本地模型培训,并且服务器集成的模型集成。大多数现有的联合学习方法都采用培训深度学习模型,这通常在计算上要求 ...
0 0 0 2025/05/30 arXiv:2502.05679v2 lijng
由于方便,安全性和经济利益,对自动驾驶(AD)和智能车辆(IV)(IV)的兴趣正在迅速增长。尽管许多调查已经审查了该领域的研究成就,但它们在特定任务,未来缺乏系统的摘要和研究方向上仍然受到限制。在这里,我们建议对AD和IV的总技术进行调查(SOS)调查,以回顾历史,总结了里程碑,并提供了观点,伦理和未来的研究方向 ...
0 0 0 2025/05/30 arXiv:2303.17220v1 lcaiwen
在处理物理世界中的复杂任务时,人类在执行实际动作之前练习缓慢的思维。最近,这种思维范式在增强大型语言模型(LLM)方面取得了显着的进步,以解决数字域中的复杂任务。但是,对于与物理世界相互作用的机器人基础模型,缓慢思考的潜力仍然没有探索 ...
0 0 0 2025/05/30 arXiv:2505.21432v2 jane88
整合视觉理解和发电能力的统一视觉模型(VLM)的最新进展引起了极大的关注。基本的假设是,对理解和生成任务进行混合培训的统一体系结构可以在理解和产生之间相互增强。但是,该假设在统一VLM的先前工作中仍未得到充实 ...
0 0 0 2025/05/30 arXiv:2505.23043v1 Lewandofski
选择哪些要求检查是人类事实检查者的一项耗时的任务,尤其是从包含多个句子和包含多个索赔的文件中。但是,现有的索赔提取方法更多地集中在识别和提取个人句子中的索赔,例如 ...
0 0 0 2025/05/30 arXiv:2406.03239v2 Cantaloupe
多模式大语言模型(MLLM)的最新进展显示出令人鼓舞的结果,但是现有的方法很难同时有效地处理时间和空间定位。这一挑战源于两个关键问题:首先,结合时空定位引入了大量的坐标组合,使语言和视觉坐标表示的对齐变得复杂;其次,在视频功能压缩过程中编码细粒度的时间和空间信息本质上是困难的。为了解决这些问题,我们提出了LLAVA-ST,这是一种用于良好的时空多模式理解的MLLM ...
0 0 0 2025/05/30 arXiv:2501.08282v1 1737648397

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)