本文介绍了超透明原型网络,该网络将分类和回归统一使用超透明输出空间上的原型。对于分类,一种常见的方法是将原型定义为每班训练示例的平均输出向量。在这里,我们建议将Hyperpheres用作输出空间,而类原型定义了较大的边距分离的先验 ...
野外的年龄和性别认识是一项高度挑战的任务:除了条件,姿势复杂性和不同图像质量的变化外,在某些情况下,面部部分或完全遮住了面部。我们提出了Mivolo(多输入Volo),这是一种使用最新视觉 Transformer 的年龄和性别估计的直接方法。我们的方法将这两个任务集成到统一的双输入/输出模型中,不仅利用面部信息,还利用人物图像数据 ...
州空间模型(SSM)最近显示出具有次级计算复杂性的长期依赖性方面的希望,使其对各种应用具有吸引力。但是,纯粹基于SSM的模型面临着与稳定性和在计算机视觉任务中实现最新性能有关的关键挑战。我们的论文解决了针对计算机视觉的基于SSM模型的挑战,尤其是大型模型大小的不稳定性和效率低下 ...
SpatialLM是一种大型语言模型,旨在处理3D点云数据并生成结构化的3D场景理解输出。这些输出包括具有语义类别的墙壁,门,窗户和定向对象框,例如墙壁,门,窗户。与以前利用特定任务网络设计的方法不同,我们的模型遵循标准的多模式LLM体系结构,并直接从开源LLM进行微调 ...
图像产生的进展引起了重大的公共安全问题。我们认为假图像检测不应作为“黑匣子”操作。相反,理想的方法必须确保强大的概括和透明度 ...
图对比学习(GCL)旨在通过对齐正对和分离负对来学习节点表示。然而,很少有研究人员关注基于图的学习中使用的特定增强背后的内在规律。什么样的增强将有助于下游性能,对比学习实际上如何影响下游任务,以及为什么增强的幅度如此重要?本文试图通过建立增强和下游性能之间的联系来解决这些问题 ...
TOUP-K建议是建议系统中的一项基本任务,通常通过比较正面和负面来学习。对比度损失(CL)是最近受到更多关注的对比学习的关键,我们发现它非常适合Top-K建议。但是,CL将正面和负样本的重要性视为相同的问题 ...
在序列之间建模长期依赖性是机器学习的一个长期目标,并导致了诸如状态空间模型之类的体系结构,在长序列上极大地超过了 Transformer 。然而,这些令人印象深刻的经验收益在基准上得到了很大的证明(例如 ...