为了在资源受限的环境中部署神经网络,先前的工作已经构建了具有卷积和注意力的轻量级架构,分别用于捕获局部和全局依赖性。最近,状态空间模型以其在 Token 数量方面有利的线性计算成本而成为一种有效的全局 Token 交互。然而,对使用 SSM 构建的高效视觉主干的探索较少 ...
整合主题,场景和文本的产品海报是吸引客户的关键促销工具。使用现代图像生成方法创建此类海报非常有价值,而主要的挑战在于准确地渲染文本,尤其是对于诸如中文(包含10,000多个字符)的复杂写作系统。在这项工作中,我们将精确文本渲染的关键确定为构建角色 - 歧义视觉特征作为控制信号 ...
表是一个对象,它在文档中捕获结构化且内容丰富的内容,并且由于表布局的复杂性和多样性,识别图像中的表是具有挑战性的。以前的许多作品通常采用两阶段的方法。 (1)表检测(TD)将表区域定位在图像中,(2)表结构识别(TSR)标识了单元格之间的行和列邻接关系。使用两阶段方法通常需要带来模块之间错误传播并提高训练和推理效率低下的后果 ...
图形神经网络(GNN)最近是用于处理图形数据的神经网络结构。由于其受雇的邻居聚合策略,现有的GNN专注于捕获节点级别的信息并忽略高级信息。因此,现有的GNN遭受了由局部置换不变性(LPI)问题引起的代表性限制 ...
近年来,文档级的关系提取引起了很多关注。它通常被称为分类问题,可预测文档中所有实体对的关系。但是,以前的作品不加选择地以相同的方式代表内部和索内关系,使预测它们的不同模式混淆了 ...
自回归模型在各个领域都取得了巨大的成功,从大型语言模型(LLM)到大型多模式模型(LMM)和2D内容生成,更接近人工通用智能(AGI)。尽管有这些进展,但在3D对象产生和理解中采用自回归方法仍未得到探索。本文介绍了Scale AutoreSercrive 3D(SAR3D),这是一个新型框架,利用了多尺度3D矢量定量的变异自动编码器(VQVAE),以使3D对象具有有效的自动性产生和详细的理解 .. ...
我们介绍了Skywork R1V,这是一种多模式推理模型,通过有效的多模式传输方法将R1系列大型语言模型(LLM)扩展到视觉方式。 Skywork R1V利用轻巧的视觉投影仪,促进了无缝的多模式适应,而无需重新训练基础语言模型或视觉编码器。为了加强视觉文本对齐,我们提出了一种混合优化策略,将迭代监督的微调(SFT)与小组相对策略优化(GRPO)相结合,从而显着提高了交叉模式的整合效率 ...
随着大型语言模型(LLM),视觉语言模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,只能在自然语言作为输入的情况下可以在不同的环境中运行。一个这样的应用区是使用自然语言说明的室内导航。但是,尽管最近进展了,但由于所需的空间推理和语义理解,这个问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的物体的任意场景中 ...