围绕大型语言模型(LLM)的安全问题已经进行了广泛的探索,但是多模式大语言模型(MLLMS)的安全性仍在研究中。在本文中,我们观察到多模式大语言模型(MLLM)可以通过查询相关的图像很容易被损害,就好像文本查询本身是恶意的一样。为了解决这个问题,我们介绍了MM-SafetyBench,这是一个综合框架,旨在对MLLM进行针对此类基于图像的操作的安全至关重要 ...
0 0 0 2025/06/18 arXiv:2311.17600v5 casljl
多模式命名实体识别和关系提取(MNER和MRE)是信息提取的基本和关键分支。但是,当文本中包含无关的对象图像时,现有的MNER和MRE的方法通常会遭受错误敏感性。为了解决这些问题,我们提出了一种新型的层次视觉前缀融合网络(HVPNET),以实现视觉增强实体和关系提取,旨在实现更有效和稳健的性能 ...
0 0 0 2025/06/18 arXiv:2205.03521v1 sally2016
个人移动机器人助手有望在行业和医疗保健中找到广泛的应用。例如,移动性有限的人可以从帮助完成日常任务的机器人中受益,或者建筑工人可以让机器人在现场执行精确监视任务。但是,在运动中手动指导机器人需要从操作员,尤其是在紧密或拥挤的空间中的大量集中 ...
0 0 0 2025/06/18 arXiv:2410.00572v2 yydsdsyy
在大型视力语言模型(例如GPT-4,LLAVA)中,一个众所周知的难题是,尽管增加视觉 Token 的数量通常会增强视觉理解,但它也会显着提高记忆和计算成本,尤其是在长期,密集的视频框架流流场景中 ...
0 0 0 2025/06/18 arXiv:2408.16730v1 mulanshine1
大型视觉模型(LVLM)表示人工智能(AI)社区内的开创性范式转变,通过吸收其他方式(例如图像),超出了大语言模型(LLM)的能力 ...
0 0 0 2025/06/18 arXiv:2311.05608v3 casljl
视频发电的最新进展需要越来越有效的培训食谱,以减轻计算成本的升级。在本报告中,我们介绍了contentv,这是一种8B参数文本对视频模型,在对256 x 64GB神经加工单元(NPU)进行训练后,可以实现最先进的性能(在VBench上进行85.14) ...
0 0 0 2025/06/18 arXiv:2506.05343v2 suxuefeng
分布式学习通常用于培训深度学习模型,尤其是大型模型。在分布式学习中,手动并行性(MP)方法需要大量的人类努力,并且灵活性有限。因此,最近提出了自动平行性(AP)方法来自动化并行策略优化过程 ...
0 0 0 2025/06/18 arXiv:2307.16375v6 zxiang7996
知识图(kg)精致主要针对KG完成和校正(即错误检测) ...
0 0 0 2025/06/18 arXiv:1902.06377v2 song43

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)