多模式命名实体识别和关系提取(MNER和MRE)是信息提取的基本和关键分支。但是,当文本中包含无关的对象图像时,现有的MNER和MRE的方法通常会遭受错误敏感性。为了解决这些问题,我们提出了一种新型的层次视觉前缀融合网络(HVPNET),以实现视觉增强实体和关系提取,旨在实现更有效和稳健的性能 ...
0 0 0 2025/06/18 arXiv:2205.03521v1 sally2016
个人移动机器人助手有望在行业和医疗保健中找到广泛的应用。例如,移动性有限的人可以从帮助完成日常任务的机器人中受益,或者建筑工人可以让机器人在现场执行精确监视任务。但是,在运动中手动指导机器人需要从操作员,尤其是在紧密或拥挤的空间中的大量集中 ...
0 0 0 2025/06/18 arXiv:2410.00572v2 yydsdsyy
在大型视力语言模型(例如GPT-4,LLAVA)中,一个众所周知的难题是,尽管增加视觉 Token 的数量通常会增强视觉理解,但它也会显着提高记忆和计算成本,尤其是在长期,密集的视频框架流流场景中 ...
0 0 0 2025/06/18 arXiv:2408.16730v1 mulanshine1
大型视觉模型(LVLM)表示人工智能(AI)社区内的开创性范式转变,通过吸收其他方式(例如图像),超出了大语言模型(LLM)的能力 ...
0 0 0 2025/06/18 arXiv:2311.05608v3 casljl
视频发电的最新进展需要越来越有效的培训食谱,以减轻计算成本的升级。在本报告中,我们介绍了contentv,这是一种8B参数文本对视频模型,在对256 x 64GB神经加工单元(NPU)进行训练后,可以实现最先进的性能(在VBench上进行85.14) ...
0 0 0 2025/06/18 arXiv:2506.05343v2 suxuefeng
分布式学习通常用于培训深度学习模型,尤其是大型模型。在分布式学习中,手动并行性(MP)方法需要大量的人类努力,并且灵活性有限。因此,最近提出了自动平行性(AP)方法来自动化并行策略优化过程 ...
0 0 0 2025/06/18 arXiv:2307.16375v6 zxiang7996
知识图(kg)精致主要针对KG完成和校正(即错误检测) ...
0 0 0 2025/06/18 arXiv:1902.06377v2 song43
我们提出Ditto,这是一种基于预训练的基于 Transformer 的语言模型的新型实体匹配系统。我们将EM定为序列对分类问题,以使用简单的体系结构来利用此类模型。我们的实验表明,在大型文本语料库中预先培训的语言模型的直接应用已经显着提高了匹配的质量,并且在基准数据集中最多占据了先前的最先前的F1(SOTA)(SOTA) ...
0 0 0 2025/06/18 arXiv:2004.00584v3 CZ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)