神经网络的经典发展主要集中于学习有限维欧几里得空间之间的映射。最近,这已被推广到学习函数空间之间映射的神经算子。对于偏微分方程 (PDE),神经算子直接学习从任何函数参数依赖性到解的映射 ...
Transformer 广泛采用注意力网络进行序列混合,采用 MLP 进行通道混合,在实现跨领域突破方面发挥着关键作用。然而,最近的文献强调了注意力网络的问题,包括低归纳偏差和有关输入序列长度的二次复杂性。 S4 等状态空间模型 (SSM)(Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba)的出现是为了解决上述问题,以帮助处理更长的序列长度 ...
Transformer 在各个领域实现了许多里程碑,最近还被应用于求解偏微分方程 (PDE)。然而,由于偏微分方程通常被离散成具有复杂几何形状的大规模网格,因此 Transformer 直接从大量单个点捕获复杂的物理相关性具有挑战性。超越表面和笨拙的网格,我们基于一个更基本的想法提出 Transolver,即学习隐藏在离散几何图形背后的内在物理状态 ...
深度模型最近已成为解决偏微分方程 (PDE) 的有前途的工具,称为神经 PDE 求解器。虽然根据模拟数据或物理信息损失训练的神经求解器可以很好地求解偏微分方程,但它们主要限于一组特定的偏微分方程,例如 ...
本文介绍了 PDEformer,这是一种偏微分方程 (PDE) 的神经求解器,能够同时求解各种类型的 PDE。我们主张以计算图的形式表示偏微分方程,以促进偏微分方程固有的符号和数值信息的无缝集成。采用图 Transformer 和隐式神经表示 (INR) 来生成无网格预测解 ...
状态空间模型(SSM)在某些模式中展示了最先进的序列建模性能,但在语言建模中表现不佳。此外,尽管序列长度几乎是线性缩放而不是二次缩放,但由于硬件利用率较差,SSM 仍然比 Transformer 慢。在本文中,我们在理解语言建模中 SSM 和注意力之间的表达能力差距以及减少 SSM 和注意力之间的硬件障碍方面取得了进展 ...
本文介绍了 PDEformer,这是一种偏微分方程 (PDE) 的神经求解器,能够同时求解各种类型的 PDE。我们主张以计算图的形式表示偏微分方程,以促进偏微分方程固有的符号和数值信息的无缝集成。采用图 Transformer 和隐式神经表示 (INR) 来生成无网格预测解 ...
近年来,“可解释人工智能”(XAI)社区创建了大量方法来弥合模型“复杂性”和“可解释性”之间的差距。然而,XAI方法要解决的具体问题尚未正式阐明。因此,XAI 方法缺乏理论和经验证据来证明其解释的“正确性”,限制了它们在质量控制和透明度目的方面的潜在用途 ...
Transformer 自诞生以来就因其对序列中复杂依赖关系进行建模的卓越能力而席卷了自然语言处理 (NLP) 领域。尽管基于 Transformer 的预训练语言模型 (PLM) 在几乎所有 NLP 任务中都取得了巨大成功,但它们都受到预设长度限制的影响,因此很难将这种成功扩展到超出可见数据的更长序列,即长度外推问题。长度外推引起了研究人员的极大兴趣,因为它是人类语言能力的核心特征 ...
答案句子选择(AS2)是构建准确问答管道的核心组件。 AS2 模型根据一组候选句子回答给定问题的可能性对它们进行排名。 AS2 中的最新技术通过将预训练的 Transformer 转移到大型带注释的数据集上,同时使用候选句子周围的本地上下文信息来利用预训练的 Transformer ...