在上一个两年期期间,视觉语言预训练在几个下游任务上取得了值得注意的成功。然而,获得对彼此完全不包括的高质量图像文本对,仍然是一项具有挑战性的任务,并且在常用的数据集中存在噪音。为了解决这个问题,我们提出了一种新颖的方法,这是一种新颖的方法,可以放松严格的一对一约束,并通过引入软化的目标来实现柔软的交叉模式对齐,这是由高元素内模式内的自我相似性产生的 ...
由于其端到端的管道和有希望的结果, Transformer 引起了对STVG的越来越多的兴趣。现有的基于 Transformer 的STVG方法通常利用一组对象查询,这些查询仅使用零来初始化,然后通过具有多模式特征的迭代交互逐渐学习目标位置信息,以进行空间和时间定位。尽管很简单,但由于缺乏目标特异性提示,这些零对象查询很难从复杂场景中与多模式特征的相互作用中学习判别目标信息(\ e ...
对比度学习已在嵌入学习的句子中进行了广泛的研究,该句子假设同一句子的不同观点的嵌入更接近。这个假设带来的约束很薄弱,良好的句子表示也应该能够重建原始句子片段。因此,本文提出了一个被称为Infocse的无监督句子嵌入的信息聚集的对比学习框架 ...
现实世界中的数据通常遵循长尾巴的分布,其中一些多数类别占据了大多数数据,而大多数少数族裔类别都包含有限数量的样本。分类模型最小化的跨凝结努力来代表和对尾部类别进行分类。尽管对学习公正的分类器的学习问题进行了充分的研究,但代表数据不平衡数据的方法却没有探索 ...
在后深度学习时代, Transformer 架构在预训练的大模型和各种下游任务上展现了强大的性能。然而,这种架构巨大的计算需求让许多研究人员望而却步。为了进一步降低注意力模型的复杂性,人们做出了大量努力来设计更有效的方法... ...
Mamba层提供了有效的选择性状态空间模型(SSM),该模型在建模多个域,包括NLP,远程序列处理和计算机视觉方面非常有效。选择性SSM被视为双重模型,其中一个人通过IO-Aware Paraleal扫描在整个序列上并行训练,并以自动回归方式部署。我们添加了第三种视图,并表明可以将这种模型视为注意力驱动的模型 ...
循环神经网络(rnn)在长序列上具有快速推理和高效扩展的能力,但它们难以训练且难以扩展。我们提出了hawk (一种具有门控线性递归的 rnn)和 ...
状态空间模型 (SSM) 最近在大规模语言建模基准测试中向 Transformer 展示了具有竞争力的性能,同时实现了作为序列长度函数的线性时间和内存复杂性。最近发布的 SSM 模型 Mamba 在语言建模和长序列处理任务中都表现出了令人印象深刻的性能。同时,混合专家 (MoE) 模型表现出了卓越的性能,同时显着降低了推理的计算和延迟成本,但代价是占用了更大的内存占用 ...