表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时 ...
理解表是自然语言理解的重要方面。现有的用于表理解的模型需要对表结构进行线性化,其中行或列顺序被编码为不必要的偏差。这种虚假的偏见使该模型容易受到行和列顺序扰动的影响 ...
目标检测的进展是由数据集推动的,这些数据集将研究界的注意力集中在开放挑战上。这个过程引导我们从简单图像到复杂场景 ...
现代AI的计算需求激发了对光学神经网络(ONN)的兴趣,这些神经网络(ONNS)提供了增加速度和降低功耗的潜在好处。但是,当前的ONN面临着各种挑战,最明显的是有限的计算精度(通常约为4位),并且需要高分辨率信号格式转换器(数字到Analogue转换(DAC)和模数转换(ADC))的要求。这些挑战是其模拟计算本质所固有的,并在实际实施中构成了重大障碍 ...
传统上,机器人技术中的视觉导航依赖于全球一致的3D地图或学习的控制器,这在计算上可能很昂贵,并且难以在不同的环境中推广。在这项工作中,我们提出了一种新颖的仅RGB,仅对象级的上式导航管道,该管道可实现零射击,长远程机器人导航,而无需3D地图或预训练的控制器。我们的方法将全球拓扑路径计划与局部度量轨迹控制集成在一起,从而使机器人可以朝对象级别的子目标导航,同时避免障碍 ...
在零件级别生成3D形状对于下游应用程序(例如网状复位,紫外线映射和3D打印)至关重要。但是,现有的基于部分的生成方法通常缺乏足够的可控性,并且具有较差的语义有意义的分解。为此,我们介绍了X-Part,这是一种可控的生成模型,旨在将整体3D对象分解为具有高几何忠诚度的语义有意义且结构相干的部分 ...
3D视觉的基础模型最近在3D感知中表现出了显着的功能。但是,由于内存限制,将这些模型扩展到大规模RGB流3D重建仍然具有挑战性。在这项工作中,我们提出了VGGT-LONG,这是一个简单而有效的系统,将单眼3D重建的极限推向了公里尺度,无限的室外环境 ...
组合优化问题在实际应用中广泛遇到。设计高质量的启发式算法,在合理时间内有效地近似最佳解决方案是一项关键的研究挑战。近年来,许多作品探索了将大型语言模型(LLMS)与进化算法整合在一起,以通过及时的工程来自动化启发式算法设计 ...