图形神经网络(GNN)最近是用于处理图形数据的神经网络结构。由于其受雇的邻居聚合策略,现有的GNN专注于捕获节点级别的信息并忽略高级信息。因此,现有的GNN遭受了由局部置换不变性(LPI)问题引起的代表性限制 ...
近年来,文档级的关系提取引起了很多关注。它通常被称为分类问题,可预测文档中所有实体对的关系。但是,以前的作品不加选择地以相同的方式代表内部和索内关系,使预测它们的不同模式混淆了 ...
自回归模型在各个领域都取得了巨大的成功,从大型语言模型(LLM)到大型多模式模型(LMM)和2D内容生成,更接近人工通用智能(AGI)。尽管有这些进展,但在3D对象产生和理解中采用自回归方法仍未得到探索。本文介绍了Scale AutoreSercrive 3D(SAR3D),这是一个新型框架,利用了多尺度3D矢量定量的变异自动编码器(VQVAE),以使3D对象具有有效的自动性产生和详细的理解 .. ...
我们介绍了Skywork R1V,这是一种多模式推理模型,通过有效的多模式传输方法将R1系列大型语言模型(LLM)扩展到视觉方式。 Skywork R1V利用轻巧的视觉投影仪,促进了无缝的多模式适应,而无需重新训练基础语言模型或视觉编码器。为了加强视觉文本对齐,我们提出了一种混合优化策略,将迭代监督的微调(SFT)与小组相对策略优化(GRPO)相结合,从而显着提高了交叉模式的整合效率 ...
随着大型语言模型(LLM),视觉语言模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,只能在自然语言作为输入的情况下可以在不同的环境中运行。一个这样的应用区是使用自然语言说明的室内导航。但是,尽管最近进展了,但由于所需的空间推理和语义理解,这个问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的物体的任意场景中 ...
3D场景图最近已成为一种表现力的高级图表示,将3D环境描述为分层图,其中节点代表多个抽象(例如对象,房间,建筑物)的空间概念,并且边缘代表概念之间的关系(e ...
与多模式大型语言模型(MLLM)相比,有效的多模式大型语言模型(EMLLMS)降低了模型大小和计算成本,并且经常在资源受限的设备上部署。但是,由于数据隐私问题,现有的开源EMLLM在预训练过程中很少访问特定于私有域的数据,从而使它们难以直接应用于设备特定的域,例如某些业务场景。为了解决这一弱点,本文着重于EMLLM对私人域的有效适应,特别是在两个领域:1)如何减少数据需求; 2)如何避免参数进行微 ...
3D场景图最近已成为3D环境的强大高级表示。 3D场景图将环境描述为一个分层图,其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”,但如何实时建立如此丰富的代表仍然是未知的领域 ...