稀疏 Transformer 最近引起了很多关注,因为能够降低二次依赖性对序列长度的能力。我们认为,不同注意力拓扑之间的信息瓶颈灵敏度和不一致的两个因素可能会影响稀疏 Transformer 的性能。本文提出了一个精心设计的模型,名为Ernie-Sparse ...
最近,视觉语言模型(VLM)经历了重大的进步,但是这些模型在室内场景中仍面临空间层次结构推理的挑战。在这项研究中,我们介绍了Root,这是一种基于VLM的系统,旨在增强室内场景的分析。具体而言,我们首先使用GPT-4V开发一种迭代对象感知算法来检测室内场景中的对象实体 ...
大型语言模型(LLM)的巨大商业潜力引起了人们对其未经授权使用的关注。第三方可以通过微调自定义LLM,并仅提供黑盒API访问,有效地隐藏未经授权的用法并使外部审核过程复杂化。这种做法不仅加剧了不公平的竞争,而且违反了许可协议 ...
我们提出了双曲线切线指数线性单元(TELU),这是一种神经网络隐藏的激活函数,定义为Telu(x)= XTANH(EXP(x))。 Telu的设计基于关键激活函数的核心原理,通过紧密近似于其活性区域的身份函数,同时有效地减轻其饱和区域中消失的梯度问题,从而实现了强收敛。它的简单公式提高了计算效率,从而提高了可伸缩性和收敛速度 ...
事件因果关系识别(ECI)已成为自然语言处理(NLP)的关键任务,旨在自动检测文本中事件之间的因果关系。在这项综合调查中,我们系统地阐明了ECI的基本原理和技术框架,提出了一个新颖的分类框架来对现有方法进行分类和阐明。 {我们讨论相关的挑战,提供定量评估,并概述这个动态和快速发展的领域的未来方向 ...
为灵巧的手动操纵生成大规模的示范仍然具有挑战性,并且近年来提出了几种方法来解决这一问题。其中,生成模型已成为有希望的范式,从而有效地创造了多样化和物理上合理的示范。在本文中,我们介绍了Dex1b,这是一种由生成模型生产的大规模,多样化和高质量的演示数据集 ...
近年来,基于学习的方法越来越受欢迎,以增强照片的颜色和色调。但是,许多现有的照片增强方法要么带来不令人满意的结果,要么消耗过多的计算和内存资源,从而阻碍其应用于实际上在高分辨率图像(通常超过12百万像素)上。在本文中,我们学习图像自适应的3维查找表(3D LUTS),以实现快速稳固的照片增强功能 ...
大型语言模型(LLMS)在我们的日常生活中变得越来越普遍,导致人们期望LLM值得信赖 - 精确且精心校准(预测信心应与其基础真理正确性的可能性保持一致)。如今,微调已成为通过显着提高下游任务的准确性来调整模型来实用使用的最流行方法。尽管取得了很高的准确性,但我们发现,由于“调谐引起的错误校准”,微调仍然与令人满意的可信赖性相距甚远 ...