wgkooo的文档

wgkooo

个性签名 ...

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

由于 Transformer 的数据依赖性和大规模学习能力，深度学习的最新进展主要依赖于 Transformer。然而，这些架构中的注意力模块在输入大小上表现出二次时间和空间，限制了它们长序列建模的可扩展性。尽管最近尝试为多维数据（例如图像和多元时间序列）设计高效且有效的架构主干，但现有模型要么是数据独立的，要么无法允许维度间和维度内通信 ...

0 0 0 0 2025/06/04 arXiv:2403.19888v4 wgkooo

Wave-Mamba: Wavelet State Space Model for Ultra-High-Definition Low-Light Image Enhancement

（uhd）（uhd）技术因其卓越的视觉质量而受到广泛关注，但也对微光图像增强（ llie）技术提出了新的挑战。uhd图像本身就具有较高的计算复杂度，导致现有的uhd uhd llie方法需要采用高倍下采样来降低计算成本 ...

0 1 0 0 2025/03/20 arXiv:2408.01276v1 wgkooo

Strategies for Pretraining Neural Operators

偏微分方程 (PDE) 建模的预训练最近显示出在跨数据集扩展神经算子以提高泛化性和性能方面的前景。尽管取得了这些进步，我们对预训练如何影响神经算子的理解仍然有限。研究通常提出定制的架构和数据集，这使得比较或检查不同的预训练框架变得具有挑战性。为了解决这个问题，我们在不优化架构选择的情况下比较了各种预训练方法，以表征不同模型和数据集上的预训练动态，并了解其扩展和泛化行为 ...

0 0 0 0 2024/08/20 arXiv:2406.08473v1 wgkooo

Self-supervised Pretraining for Partial Differential Equations

在这项工作中，我们描述了一种利用基于 Transformer 的神经网络架构的最新进展来构建神经偏微分方程求解器的新方法。我们的模型可以为不同的 PDE 参数值提供解决方案，而无需重新训练网络。训练以自我监督的方式进行，类似于语言和视觉任务中应用的预训练方法 ...

0 0 0 0 2024/08/20 arXiv:2407.06209v1 wgkooo

MgFNO: Multi-grid Architecture Fourier Neural Operator for Parametric Partial Differential Equations

在科学和工程中，经常需要重复求解大规模、高分辨率的偏微分方程（PDE）。神经算子是一种新型模型，可以在函数空间之间进行映射，允许经过训练的模型模拟偏微分方程的解算子。本文介绍了一种新颖的具有多重网格架构的傅里叶神经算子（MgFNO） ...

0 0 0 0 2024/08/20 arXiv:2407.08615v1 wgkooo

Pretraining a Neural Operator in Lower Dimensions

最近，人们越来越关注通过大规模预训练开发基础神经偏微分方程 (PDE) 求解器和神经算子。然而，与利用丰富且廉价（未标记）数据进行预训练的视觉和语言模型不同，这些神经求解器通常依赖于模拟 PDE 数据，而获取这些数据的成本可能很高，尤其是对于高维 PDE。在这项工作中，我们的目标是在数据收集成本最低的低维偏微分方程 (PreLowD) 上预训练神经偏微分方程求解器 ...

0 0 0 0 2024/08/20 arXiv:2407.17616v1 wgkooo

U-WNO: U-Net Enhanced Wavelet Neural Operator for Solving Parametric Partial Differential Equations

神经算子是求解参数偏微分方程 (PDE) 的有效工具。它们可以预测具有不同初始条件和边界条件以及不同输入函数的偏微分方程的解。最近提出的小波神经算子（WNO）利用小波的时频局部化来有效地捕获空间流形 ...

0 0 0 0 2024/08/20 arXiv:2408.08190v1 wgkooo

A Unified Framework for Interpretable Transformers Using PDEs and Information Theory

本文通过整合偏微分方程（PDE）、神经信息流理论和信息瓶颈理论，提出了一种新颖的统一理论框架，用于理解 Transformer 架构。我们将 Transformer 信息动态建模为连续的 PDE 过程，包括扩散、自注意力和非线性残差分量。我们跨图像和文本模态的综合实验表明，PDE 模型有效地捕获了 Transformer 行为的关键方面，实现了高相似度（余弦相似度 > 0 ...

0 0 0 0 2024/08/20 arXiv:2408.09523v1 wgkooo

MyCrunchGPT: A chatGPT assisted framework for scientific machine learning

科学机器学习（SciML）最近在计算科学和工程的许多不同领域取得了进展。目标是数据和物理无缝集成，而不需要采用复杂且计算繁重的数据同化方案。然而，成本、问题水资源、代码生成、后续处理和分析仍然非常运行，可能会阻碍 SciML 在工业应用和数字孪生框架中的广泛适用性... ...

0 0 0 0 2024/11/26 arXiv:2306.15551v2 wgkooo

DyGMamba: Efficiently Modeling Long-Term Temporal Dependency on Continuous-Time Dynamic Graphs with State Space Models

学习连续时间动态图（CTDG）的有用表示具有挑战性，因为同时需要跨越长节点交互历史并掌握微妙的时间细节。特别是，出现了两个问题：（1）编码更长的历史需要更多的计算资源，这使得CTDG模型保持较低的计算复杂度以确保效率至关重要；（2）同时，需要更强大的模型来识别和选择较长历史提供的扩展上下文中最关键的时间信息。为了解决这些问题，我们提出了一种名为 DyGMamba 的 CTDG 表示学习模型，该模型源自流行的 Mamba 状态空间模型（SSM） ...

0 0 0 0 2024/08/12 arXiv:2408.04713v1 wgkooo