Yolo系列的模型在实时对象检测中占据了最高的准确性和计算效率。然而,Yolo11和更早版本的卷积体系结构以及在Yolov12中引入的基于区域的自我发项机制都仅限于本地信息聚集和成对的相关模型,因此缺乏捕获全球多到多数高级相关性的能力,从而限制了复杂场景中的检测性能。在本文中,我们提出了Yolov13,这是一种准确且轻巧的对象检测器 ...
0 0 0 2025/06/24 arXiv:2506.17733v1 19396386025
3D重建和环境映射的当前方法在达到高精度方面经常面临挑战,突出了对实用和有效解决方案的需求。为了应对这个问题,我们的研究介绍了Flynerf,该系统将神经辐射场(NERF)与基于无人机的数据采集集成了高质量3D重建的系统。利用无人机(UAV)捕获图像和相应的空间坐标,随后将获得的数据用于基于NERF的初始基于NERF的3D重建 ...
0 0 0 2025/06/24 arXiv:2404.12970v1 zhifeiji
任意形状的文本检测的主要挑战之一是设计一个良好的文本实例表示,该表示允许网络学习各种文本几何差异。现有的大多数方法通过掩盖或极地坐标系中的掩模或轮廓点序列模拟图像空间域中的文本实例。但是,掩模表示可能会导致昂贵的后处理,而点序列可能具有高度弯曲形状的文本的能力有限 ...
0 0 0 2025/06/24 arXiv:2104.10442v2 leiwu30
在现实世界中,为自动驾驶汽车开发和测试算法是一个昂贵且耗时的过程。此外,为了利用机器智能和深度学习的最新进展,我们需要在各种条件和环境中收集大量注释的培训数据。我们提出了一个基于虚幻引擎的新模拟器,该模拟器为这两个目标提供了身体和视觉上现实的模拟 ...
0 0 0 2025/06/24 arXiv:1705.05065v2 xsxsxsxsxs
扫描透射电子显微镜(STEM)可以在亚角分辨率下观察原子布置,从而可以对材料的物理和化学特性进行原子解析。但是,由于噪声,电子束损伤,样品厚度等的影响,获得令人满意的原子级图像通常是具有挑战性的。增强的STEM图像可以揭示材料的更清晰的结构细节 ...
0 0 0 2025/06/24 arXiv:2504.02555v1 momohu
以可控的方式生成数字人类的影像片视频对于众多应用程序至关重要。现有的方法是建立在采用基于模板的3D表示或新兴视频生成模型的方法上,但质量差,或者在产生个人或多个数字人类时的质量或有限的一致性和身份保存。在本文中,我们引入了一种新的空间注意力(ISA)机制,作为现代扩散 Transformer (DIT)的可扩展构建块 - 基于视频生成模型 ...
0 0 0 2025/06/24 arXiv:2505.15800v2 陆三七
近年来,大型语言模型(LLMS)取得了显着的进步,并已在各个领域进行了广泛的整合。尽管取得了进步,但LLM却容易出现幻觉,如果模型缺乏足够的基础知识,则可能无法可靠。为了减轻此问题,已经采用了估计不确定性的方法,重点是关键 Token 作为可靠性的指标 ...
0 0 0 2025/06/24 arXiv:2502.00290v5 hinsay
用于任务规划和物联网自动化的大型语言模型(LLM)的探索最近引起了广泛关注。然而,现有的工作在资源可访问性、复杂的任务规划和效率方面受到限制。在本文中,我们提出了 LLMind,这是一种基于 LLM 的人工智能代理框架,可以实现物联网设备之间的有效协作以执行复杂的任务 ...
0 0 0 2025/06/24 arXiv:2312.09007v4 HeiHuZi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)