本文提出了一种快速和简约的解析方法,可准确稳健地检测出具有单个正向通行证的输入图像中的矢量线框。所提出的方法是端到端训练,由三个组件组成:(i)线段和交界提案生成,(ii)线段和连接匹配,以及(iii)线段和连接验证。为了计算线段建议,提出了一种新颖的双重表示,该提议利用了线段的片状几何重新聚集化,并形成了输入图像的整体4维吸引场图 ...

0 0 0 0 2025/03/10 arXiv:2003.01663v1 lucian_p

高分辨率图像和详尽的局部注释成本的良好成本阻碍了数字病理学的进展。用于对病理图像进行分类的常用范式是基于斑块的处理,该处理通常包含多个实例学习(MIL)以汇总局部斑块级表示,从而产生图像级预测。但是,诊断相关的区域只能占整个组织的一小部分,而当前的基于MIL的方法通常会统一地处理图像,从而丢弃相互作用的相互作用 ...

0 0 0 0 2025/03/09 arXiv:2202.07570v3 lucian_p

DUST3R提出了一个模型,该模型可以提供密集且无约束的立体3D重建任意图像集合,而没有有关摄像机校准或观点姿势的事先信息,从而引入了几何计算机视觉的新范式。但是,在引擎盖下,DUST3R处理图像对,回归需要在全球坐标系中对齐的本地3D重建。对二次生长的对数是一个固有的限制,在大型图像集合的情况下,它特别关注可靠和快速优化 ...

0 0 0 0 2025/03/07 arXiv:2503.01661v1 lucian_p

在本文中,我们提出了一种高效的视觉 SLAM 系统,旨在解决短期和长期的照明挑战。我们的系统采用混合方法,将用于特征检测和匹配的深度学习技术与传统的后端优化方法相结合。具体来说,我们提出了一个统一的卷积神经网络(CNN),可以同时提取关键点和结构线 ...

0 1 1 1 2025/03/05 arXiv:2408.03520v4 lucian_p

我们提出了Light3R-SFM,这是一种从无约束的图像收集中从无约束的图像收集中有效的大规模结构(SFM)的端到端学习框架。与现有的SFM解决方案依靠昂贵的匹配和全球优化来实现准确的3D重建,Light3R-SFM通过一种新型的潜在全球对齐模块来解决这一限制。该模块用可学习的注意机制代替了传统的全局优化,从而有效地捕获了图像跨图像的多视图约束,从而获得了稳健和精确的相机姿势估计 ...

0 0 0 0 2025/03/03 arXiv:2501.14914v1 lucian_p

多视图3D重建仍然是计算机视觉中的核心挑战,尤其是在需要各种视角的准确和可扩展表示的应用中。当前的领先方法(例如DUST3R)采用了基本的成对方法,成对处理图像,并需要昂贵的全球对齐程序从多个视图中重建。在这项工作中,我们提出了快速的3D重建(FAST3R),这是一种对DUST3R的新型多视图概括,通过并行处理许多视图来实现有效且可扩展的3D重建 ...

0 0 0 0 2025/03/03 arXiv:2501.13928v1 lucian_p

在本文中,我们介绍了Splatt3R,这是一种无姿势的,馈送的方法,用于野外3D重建,并从立体声配对中介绍了新型视图合成。给定未校准的自然图像,Splatt3R可以预测3D高斯夹板,而无需任何相机参数或深度信息。为了概括性,我们通过将其扩展以处理3D结构和外观来构建``基础''3D几何重建方法MAST3R ...

0 0 0 0 2025/03/03 arXiv:2408.13912v2 lucian_p

我们提出了一个实时的单眼密集大满贯系统,该系统由MAST3R(两视图3D重建和匹配之前)设计为自下而上。配备了这种强大的先验,我们的系统在野外视频序列上虽然没有在唯一的相机中心之外的固定或参数摄像头模型上做出假设。我们介绍了用于指数匹配,相机跟踪和本地融合,图形结构和循环闭合以及二阶全局优化的有效方法 ...

0 0 0 0 2025/03/02 arXiv:2412.12392v1 lucian_p

以视觉为中心的占用网络代表具有语义均匀体素的周围环境,已成为安全驾驶仅相机自动驾驶感知系统的新趋势,因为它们能够检测到障碍物,无论其形状和闭塞如何。现代占用网络主要集中于从对象表面重建具有体素语义预测的对象表面的可见体素。通常,它们对一个对象的预测不一致,并且对相邻对象的预测混合了预测 ...

0 0 0 0 2025/02/28 arXiv:2406.07037v1 lucian_p

我们提出了X-Decoder,这是一个通用的解码模型,可以无缝预测像素级分段和语言 Token 。 x-decodert作为输入的两种查询:(i)从文本输入引起的通用非语义查询以及(ii)语义查询,以解码在同一语义空间中的不同像素级和 Token 级输出。借助如此新颖的设计,X-Decoder是第一部提供统一方法来支持所有类型的图像分割和各种视觉语言(VL)任务的作品 ...

0 0 0 0 2025/02/27 arXiv:2212.11270v1 lucian_p

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)