张量程序六:

无限深度神经网络中的特征学习

Greg Yang
xAI
&Dingli Yu
Princeton Language
and Intelligence
&Chen Zhu
Nvidia
&Soufiane Hayou
Simons Institute
UC Berkeley

Equal contribution.Work partially done at the National University of Singapore.
摘要

通过对无限宽度神经网络进行分类并确定最佳限制,[23, 25]展示了一种通用方法,称为μP,用于宽度方向超参数转移,即从窄神经网络预测宽神经网络的最佳超参数。 在这里,我们研究深度残差网络(resnet)的深度参数化的类似分类。 我们根据块乘法器和学习率的无限宽度和深度限制对深度参数化进行分类。 在每个块只有一层的 resnet 中,我们确定了一种独特的最佳参数化,称为 Depth-μP,它扩展了 μP,并根据经验表明它允许深度超参数传输。 我们认为特征多样性是深度网络中的关键因素,而Depth-μP可以被描述为最大化特征学习和特征多样性。 利用这一点,我们发现在所有同质非线性中,绝对值可以最大化特征多样性,并且实际上根据经验可以带来更好的性能。 然而,如果每个块更深(例如现代 Transformer ),那么我们会发现此类参数化的所有可能的无限深度限制的基本限制,我们在简单网络以及在 Common Crawl 上训练的威震天 Transformer 上从理论上和经验上说明了这一点。

1简介

深度神经网络在广泛的任务中展示了卓越的性能,包括图像分类、以 AlphaGo 为代表的游戏[17],以及以 GPT-4 为代表的自然语言处理[15]. 开发这些网络的普遍趋势是增加其规模和复杂性,经验证据表明,使用相同的计算资源,具有更多参数的模型往往会表现出更好的性能。 有两种方法可以增加网络大小:宽度深度 宽度的属性(给定固定深度)已在文献中得到广泛研究:Yang 等人[25]最近的工作确定了最大更新参数化(μP) 保证了无限宽度限制下的最大特征学习。111这里的最大特征学习指的是Θ(1)在无限宽度限制下特征的变化。 这应该与惰性训练体系形成对比,其中特征的变化是Θ(n1/2) μP 的另一个好处是超参数传输,可以在较小的模型上进行超参数调整;较小模型的最佳超参数选择对于较大模型(即宽度较大的模型)仍然是最佳的。 然而,尽管大规模深度模型取得了成就,并且对缩放宽度有了理论上的理解,但增加神经网络的深度仍然存在实际局限性和理论困难。 在实践中,增加深度超过一定水平通常会导致性能下降和/或最佳超参数的显着变化。 理论上,与增加宽度不同,增加深度会引入新的参数,从而显着改变训练动态。 在本文中,我们的目标是通过扩展 μP 以包含深度缩放来解决这个问题。 我们将深度缩放称为Depth-μP。

随着时间的推移,深度缩放问题一直持续存在。 十年前,深度神经网络经历了严重的退化问题——超过几十层会增加训练误差,而不是提高模型的性能。 这部分是由于梯度消失或爆炸问题影响了信息通过网络的有效传播。 残差网络(ResNet)[8,9,18]的引入部分解决了这个问题,允许训练更深层的网络并提高性能。 ResNet 通过分层 剩余块来构建,剩余块由一系列卷积层组成,然后与输入进行逐元素相加。 这种逐元素添加(通常称为跳过连接)是 ResNet 的一项重大创新,并且仍然是包括 Transformers [19] 在内的现代架构的重要组成部分。

具体来说,在残差架构中,第l个残差块被公式化为

xl=xl1+gl(xl1;Wl),

其中 xl1 是输入,xl 是输出,Wl 是块的参数,gl(通常称为 residualbranch)是定义层的映射(例如 ResNet 中的卷积堆栈,或 Transformer 中的 SelfAttention 和 MLP)。 在这项工作中,我们重点关注 gl 是具有(或不具有)激活的无偏感知器的情况。

表格1: 标准深度缩放和 Depth-μP 之间的差异。 Depth-μP 中的常数 aη 可以跨深度转移,即,可以调整较小的网络并为更深的网络使用相同的常数。 另一方面,标准深度缩放的学习率需要针对不同深度的模型进行单独调整。
Branch Multiplier Learning Rate
Standard 1 ? (tuned)
Depth-μP (SGD) a/depth η
Depth-μP (Adam) a/depth η/depth

即使在初始化时,许多残差块的堆叠也会导致明显的问题 - xl 的范数随着 l 的增长而增长,因此最后一层特征在增加深度时没有稳定的范数。 直观上,我们可以通过使用与深度相关的常数来缩放残余分支来稳定这些特征。 然而,用任意小的常数缩放残余分支可能会导致在大深度限制下无法学习特征,因为梯度也会与缩放因子相乘。

当每个块 gl 只有一层(一个矩阵乘法)时,我们将称为 Depth-μP 的参数化确定为深度网络的最佳参数化。 它最大限度地提高了特征学习特征多样性222我们在本文后面给出了特征学习和特征多样性的正式定义。 在块乘数和深度学习率的所有可能参数化中。 我们的框架扩展了之前在 μP 上的结果,处理最佳宽度缩放[25] 它完成了宽度缩放,因此提供了完整的宽度和深度缩放配方,保证了跨宽度和深度的最大特征学习和超参数传输。 Depth-μP 包含对标准实践的以下修改:

  1. 1.

    每个残差分支在添加到其输入之前都有一个乘数,该乘数与 L 的平方根成反比(其中 L 是深度)。 形式上,使用独立于 L 的常量 a

    xl =xl1+aLgl(xl1;Wl). (1)
  2. 2.

    我们设置Wl的学习率,使得训练期间Wl的更新与1/L成正比。 我们基于这个原理针对不同的优化算法推导出不同的学习率方案。 对于 Adam 来说,由于其对梯度具有尺度不变性,因此 Wl 的学习率设置为 η/L 另一方面,SGD 的Wl学习率被设置为常数η,因为Wl的梯度已经是1/L 由于乘数。

在块深度 1 中(即 gl 是无偏差感知器,Wl 是单个矩阵),这种缩放导致以下属性:

  • 在初始化时,每个L残差块将Θ(1/L)贡献给主分支。 这些L贡献是相互独立的,因此它们的总和大小为Θ(1)

  • 在训练过程中,由于学习率和乘数的共同作用,每个残差块的更新贡献为Θ(1/L) 更新的贡献是高度相关的,因此它们的总和为Θ(1)

这种缩放方法的更详细直观可以在部分3中找到,其中我们在一个梯度步骤之后提供了线性网络的简单分析。 我们在部分7中给出了深度参数化的完整分类。

Refer to caption
图1: 具有分支乘数 Lα 和与 Lγ 成比例的参数更新的扩展策略的行为。

1.1 深度最优性-μP。

我们将 Depth-μP 与其他具有分支乘数 Lα 和参数更新 Lγ 的缩放策略进行了彻底比较。333这意味着如果网络稳定,Adam 的有效学习率与 Lγ 成正比,SGD 的有效学习率与 Lαγ 成正比在初始化时。 如图1所示,(α,γ)的空间被分为几个区域,每个区域在当L

  • 初始化时需要使用 α1/2 来稳定网络。 这确保了隐藏的激活和网络输出在初始化时不会爆炸;

  • 对于任意α+γ<1,训练时网络不稳定。 训练期间隐藏激活或网络输出的变化随着深度的增加而爆炸;

  • 对于任何α+γ>1,训练结果都是微不足道的。 随着深度的增加,网络的变化消失;

  • 对于任何具有 α>1α+γ=1,网络都是不忠实的(本文稍后将提供正式定义)。 随着深度的增加,隐藏的激活在训练过程中会爆炸;

  • 对于任何α+γ=1α(1/2,1],我们表明网络收敛到缺乏特征多样性冗余限制,在这种情况下层具有相似的输出(以神经常微分方程的方式)。

  • αγ剩下的唯一选择是α=γ=1/2,它对应于Depth-μP。

严格的定义和证明在部分7中给出。

1.2 深度超参数传递。

Depth-μP 的最优性意味着(在某些假设下)网络的最优超参数也会随着深度 (L) 的增加而收敛。 这种收敛表明较浅网络的最佳超参数大约等于较深层网络的最佳超参数。 直接的含义是,我们可以利用这个属性从较浅的网络推断出较深层网络的超参数,从而有效地降低与超参数调整相关的成本。 通过 Depth-μP,我们成功训练了包含数千个残差块的网络,同时还展示了超参数跨深度的可传递性。

1.3 块深度的不可能性结果2

虽然块深度 1 的情况承认积极的结果,但我们表明块深度 2 的情况没有也不能(section 9)。 基本问题是,如果想保留多样性,当深度很大时,块内不同层的权重被迫以加法而不是乘法相互作用。 这会导致块深度 2 的性能比块深度 1 更差,并且最佳超参数会随着深度而变化。 我们在具有 MLP 块的 resnet 上以及在 Common Crawl 上训练的 Megatron Transformer [16] 上以教学方式演示了这一点。 这些观察结果需要重新思考当前的超参数传递方法。

2相关作品

2.1 宽度缩放和μP

神经网络的无限宽度限制一直是文献中广泛研究的主题。 许多研究主要集中在检查初始化时各种统计量的行为。 有些工作已经超越了初始化阶段,探索神经网络中特征学习的动态。

懒惰的训练。

使用标准参数化,学习率为 𝒪(n1) 级,444我们还通过 NTK 参数化和 𝒪(n1/2) 学习率获得了惰性无限宽度限制。 n 是宽度,在无限宽度限制下产生所谓的惰性训练机制,其中特征在整个训练 [3, 25] 中保持大致恒定。 该机制也称为神经正切核 (NTK) 机制,其收敛特性已在文献[10,1,2,28]中进行了广泛研究。

特征学习和μP.

最近的实证研究(例如[25])提供了令人信服的证据,表明特征学习在深度学习的成功中发挥着至关重要的作用。 人们普遍认为,深度神经网络取得的卓越性能可以归因于它们通过训练过程获得有意义的表示的能力。 因此,扩展网络架构成为增强此类模型性能的自然选择。

在这种背景下,[25]中引入的μP(最大更新参数化)已成为一种有前景的方法,可以最大化特征学习,同时防止特征随着网络宽度的增加而爆炸。在给定固定深度的情况下增加。 值得注意的是,μP 有助于跨不同网络宽度的超参数传输。 这意味着,我们可以在较小的模型上对其进行优化,并对较大的模型使用同一组超参数,而不是直接在大型模型上调整超参数。

μP 的推导利用了张量程序框架[22,20,21,23,25],该框架为捕获无限中神经网络的行为提供了有价值的工具。训练过程中的宽度制度。

2.2 深度缩放

虽然增加神经网络的宽度可以提高性能,但增加网络的深度也可以带来显着的性能提升,并且大多数最先进的模型都使用深层架构。 跳跃连接的引入[8, 9]在实现深度网络方面发挥了关键作用。 然而,很明显,即使使用跳过连接和归一化层,训练深度网络仍然是一项具有挑战性的任务[12] 此外,调整大型深度网络的超参数是一项耗时且耗时的任务。

为了解决与训练深度网络相关的挑战,一些研究提出使用深度相关的缩放器来缩放网络块,以确保初始化时或内核状态中特征和梯度的稳定性[7,4,26,13, 5、6、14、27] 然而,这些工作缺乏对特征学习动态的洞察。 例如,有人可能会争辩说,如果学习率选择不当,特征仍然会经历爆炸性增长。 因此,有效的深度缩放方法不仅应确保初始化时的稳定性,还应为缩放学习率提供指导。

这一动机是 Depth-μP 开发的基础,它为深度缩放提供了一个全面的框架。 Depth-μP 包含块乘法器和学习率缩放,为训练深度网络提供完整的方案。 在多层感知器(MLP)(无跳跃连接)的情况下,Jelassi 等人[11]表明,学习率缩放depth3/2保证了初始梯度后的稳定性步。 然而,目前尚不清楚在第一步之后如何调整学习率,并且这种缩放不适合具有剩余连接的架构。

3 热身:线性网络的直观解释

让我们从一个简单的例子开始,它提供了支撑我们的深度缩放策略的必要直觉。 给定深度 L、宽度 n,考虑以下形式的线性残差网络

x0 =Uξ,
l[L],xl =xl1+1LWlxl1,
f =VxL,

其中权重矩阵 Wln×nU,V 是我们假设在训练期间固定的输入和输出权重矩阵。

3.1 学习率的最佳缩放

为了简化分析,我们考虑基于单个数据点的梯度更新。 第一个梯度步长由下式给出

W1l=W0lηG0l,

其中 η 是学习率,G0l 是具有更新方向的矩阵。 例如,对于 SGD 和 Adam,我们有以下 G0l 表达式:

  • SGD:G0l=1Lδxlxl1,其中δxl=defxl表示某些损失函数555我们使用δ作为梯度,因为我们想与论文后面出现的深度微分方程中的d区分开来。

  • 亚当666为了简单起见,我们在本节中考虑 SignSGD,它可以看作是 Adam 的无记忆版本。 该分析对于任何提供 Θ(1) 梯度的训练算法都有效。G0l=sign(1Lδxlxl1)

在这两种情况下,δxlxl1 都是针对单个数据点 ξ0 计算的。 最后一层特征xL(对于某些输入ξ)由xL=l=1L(I+1LWl)x0给出。777 为了避免任何混淆,这里我们通过 l=1LAl=AL×AL1×A1 定义矩阵乘积。 我们使用下标t来指代训练步骤。 在第一个梯度步骤之后,我们有以下结果

x1L=l=1L(I+1LW1l)x0=x0LηLAL+𝒪(η2), (2)

其中AL=l=1L[k>l(I+1LW0k)]G0l[k<l(I+1LW0k)]x0 我们认为 AL 的行为与 Θ(L) 相同(在 L2 规范中)。 这是由于 1/L 缩放因子造成的。 为了看到这一点,我们通过考虑情况 din=n=dout=1 (每层单个神经元)和平方损失来进一步简化分析。 在这种情况下,术语 AL 简化为

AL=l=1Lkl(1+1LW0k)G0lx0.
SGD 的缩放比例。

对于 SGD,我们有 G0l=1Lkl(1+1LW0k)x0δxL,其中 δxL=(VxLy(ξ0))y(ξ0) 是目标输出。 因此,很容易看出

𝔼Al2=1L𝔼(l=1Lkl(1+1LW0k)2δxLx02)2=Θ(1LL2)=Θ(L),

我们使用 𝔼(1+1LW0k)2p=1+Θ(L1) 来表示任何正整数 p

因此,eq. 2 中一阶项的大小由下式给出

𝔼[(ηLAl)2]=Θ(η2),

说明只要η=Θ(1)深度,更新深度就稳定。 更准确地说,这是学习率的最大选择,不会随着深度的增加而导致特征爆炸。

亚当的规模。

对于 Adam,我们有 G0l=±1,因此我们得到

𝔼Al2=𝔼(l=1Lkl(1+1LW0k)x0)2=Θ(L2),

我们使用了与之前相同的参数。 在这种情况下,eq. 2 中的一阶项由下式给出

𝔼[(ηLAl)2]=Θ(η2L1).

因此,在不爆炸特征的情况下可以选择的最大学习率由η=Θ(L1/2)给出。

总结:通过保证参数更新为Θ(1/L),在特征更新为Θ(1)时,特征保持稳定。 Θ(1) 更新是由于 Θ(1/L) 相关项在深度上的累积所致。

3.2 当深度达到时收敛

让我们再次看看简单情况din=dout=n=1中的x1L,并分析它在L时的行为。 本段仅旨在给出收敛的直觉。 本文稍后将提出这种收敛性的严格证明。 让我们考虑学习率为 η=1 并让 ML,l=kl(1+1LW0k)τ=(Vx0Ly(ξ0))x0 进行 SGD 训练的情况。 有了这个,我们有以下内容

x1L=l=1L(1+1LW0l1LτML,l)x0. (3)

WLOG,让我们假设x00>0 那么,对于某个""的概念来说,的发生概率很高(对于某个α>0来说,W0lL的发生概率至少为1eLα)。888这是从次指数随机变量的简单集中不等式得出的。,我们有 x1L>0 因此,我们可以看看log(x1L),它简化了任务。 在高概率事件下取对数并使用泰勒展开,我们得到

log(x1L/x0) =1Ll=1LW0l1Ll=1LτML,l+l=1L(W0l)2L+𝒪(L1+ϵ)
=1Ll=1LW0lτx0L1Ll=1L11+1LW0l+l=1L(W0l)2L+𝒪(L1+ϵ),

对于某些ϵ>0 第一项和第三项 1Ll=1LW0ll=1L(W0l)2L 分别收敛(几乎肯定)到标准高斯和 1 第二项也自然收敛,因为 x0LL2 中收敛到对数正态随机变量 ([5]),并且经过精细处理(涉及高概率界限),可以证明项 1Ll=1L11+1LW0l 在大深度处收敛(在 L2 范数中)。 这意味着随着深度的增加,x1L 应该有一些弱收敛的概念。 请注意,对于一般宽度 n>0,相同的分析变得更加复杂。 为了避免处理高概率界限,一种方便的方法是首先将宽度设为无穷大 n,然后分析随着深度增加会发生什么。 我们将在下一节讨论这个问题。

3.3 一般情况的讨论

难以推广到非线性情况。

扩展到一般宽度场景 (n>1) 需要对术语 Al 进行更复杂的处理,以找到最佳缩放规则,但所提出的缩放对于一般宽度仍然是最佳的。 这种基本知识分析为提出最大化特征学习的特定学习率缩放方案奠定了基础。 此外,在存在非线性的情况下证明这种扩展策略的最优性是一项艰巨的任务。 主要挑战源于训练过程中诱发的后激活之间的相关性。 克服这些挑战需要一个严格的框架,能够解决网络中关键数量的大深度限制。

为此,我们采用张量程序框架来研究基本网络量在无限宽度和深度限制下的行为。 通过利用这个框架,我们的理论研究结果表明,上述扩展策略对于具有跳跃连接的一般网络来说仍然是最佳的。 我们的框架考虑的设置是首先将宽度设为无穷大,然后是深度。 这代表了 1depthwidth 的情况,它包含了大多数实际设置(例如大型语言模型)。

初始化的关键作用。

一种简单的深度缩放方法如下:由于权重 Wtk 在训练过程中可能变得高度相关,因此必须使用 1/L 缩放块。 为了理解这一点,让我们假设块乘数为 Lα 并考虑所有权重相等的完美相关场景,即每个 k1,,L 都有 Wtk=W 在这种情况下,最后一层特征可以表示为xL=(I+LαW)Lx0 α=1/2时,特征很可能随着深度的增加而呈现爆炸性增长,而选择α=1则保证特征稳定。

然而,在本文中,我们证明这种直觉与实际观察并不相符。 与预期相反,当α=1/2时,特征并没有随着深度的增加而发生爆炸性增长。 这种现象归因于两个关键因素:随机初始化和学习率随深度的缩放。 这些因素确保权重矩阵在此过程中永远不会以这种特定方式变得高度相关。

总之,虽然基于缩放块的简单深度缩放策略可能表明需要 α=1 来稳定特征,但我们的研究结果表明,在实践中,情况并非如此。 即使选择 α=1/2,随机初始化和学习率缩放的相互作用也能有效防止特征经历爆炸性增长。

4 SGD 训练无限深线性网络动力学

本节我们继续研究Depth-μP下的带有残差连接的线性神经网络。使用张量程序框架[24],我们严格推导了线性残差网络当宽度和深度依次趋于无穷大时SGD的训练动态。 我们的分析路线图包括以下三个步骤。

  1. 1.

    我们首先通过张量程序框架[24]将网络的宽度设为无穷大。 因此,我们不是沿着训练轨迹跟踪向量和矩阵,而是跟踪与向量相对应的随机变量,即对于出现在训练计算中的向量 xn 的坐标当n时,x可以被视为随机变量⫿x的独立同分布副本(称为ket)。 999⫿x的定义要求x的坐标是𝒪(1) w.r.t。 n,如果 x 的坐标是 o(1) w.r.t,则 ⫿x 是微不足道的。 n。因此,对于坐标不是 Θ(1)x,我们通过乘以 n 的多项式来归一化 x,因此得到的向量具有坐标 Θ(1)

  2. 2.

    由于网络是线性的,因此每个随机变量都可以通过张量程序主定理[24]写为一组零均值“基础”随机变量的线性组合。 因此,我们可以通过分析随机变量相应的线性组合的系数以及“基础”随机变量之间的协方差来跟踪随机变量。

  3. 3.

    由于随机变量的数量和“基础”随机变量的数量与 L 呈线性比例,因此所有随机变量的系数都可以用六维张量表示,其中两个维度的形状为 L。然后,我们将张量映射到输入域为 [0,1]×[0,1] 的一组函数。 最后,我们声称函数在L时收敛,并将它们的极限确定为一组函数积分的解。

10.1中,我们在线性情况下对我们的理论进行了彻底的实证验证。 实验清楚地表明了深度线性残差网络在Depth-μP下的收敛性。

假设和符号

回想一下线性网络由下式给出

x0 =Uξ,
l[L],xl =aLWlxl1+xl1,
f =VxL.

为了方便起见,我们假设a=1,Wl的SGD学习率为1 我们将 t 作为下标添加到任何符号中,以表示相同的对象,但在第 t 训练步骤中,例如,步骤 t 的输入是单个数据点ξt,第l层在第t步的隐藏输出为xtl,第tft。令 T 为训练步数。 t为在t时刻吸收标签的损失函数,χt为在t时刻损失的导数,即,χt=t(ft) δxtl=t/xtl,δ~xtl=nδxtlδxtl的规范化版本。

张量程序分析在很大程度上取决于 U,V,W w.r.t n 的初始化缩放和学习率。在本文中,我们使用 μP 作为缩放比例。 n,因为它在大宽度限制[23]中最大化了特征学习。 不失一般性,我们遵循[23]并假设输入和输出维度为1,即ξ,f 为了清晰的演示,我们还假设 U,V 在本节的训练过程中被冻结,并且 W 的每个坐标都使用 i.i.d 初始化。 方差高斯1/n

4.1 μP下的宽度限制

第一步,我们使用张量程序 (TP) 将网络 n 的宽度设为无穷大。 正如本节路线图中简要提到的,TP 框架通过 n 时的随机变量来表征训练过程中涉及的每个向量。 对于具有大致 iid 坐标的向量 xn,我们编写 ⫿x (称为 ket)来表示随机变量,使得 x 的条目看起来像 ⫿x 的 iid 副本。 那么对于任意两个具有大致 iid 坐标的向量 x,yn,它们与 n 的极限内积可以写为 limnxyn=𝔼⫿x⫿y,我们简洁地写为 x⫿y 使用 SGD 的深度线性网络是从向量到随机变量转换的一个简单示例。 如程序1所示,我们使用以下函数定义了一系列标量(f̊tχ̊t)和随机变量(⫿U,⫿nV,⫿xtl,⫿δxtl,⫿Wtlxtl1,⫿Wtlδxtl) ket 符号。 为了更好的理解,下面我们对TP进行简单的介绍。

Initial random variables: ⫿U,⫿nV are independent standard Gaussian.
for t=0,,T1 do
⫿xt0=defξt⫿U;
for l=1,,L do
⫿Wtlxtl1=def⫿W0lxtl11Ls=0t1⫿δ~xslxsl1⫿xtl1;
⫿xtl=def⫿xtl1+1L⫿Wtlxtl1;
end for
f̊t=defxtL⫿nV;
χ̊t=deft(f̊t);
⫿δxtL=defχ̊t⫿nV;
for l=L,,1 do
⫿Wtlδ~xtl=def⫿W0lδ~xtl1Ls=0t1⫿xsl1δ~xsl⫿δ~xtl;
⫿δ~xtl1=def⫿δ~xtl+1L⫿Wtlδ~xtl;
end for
end for
where ⫿W0lxtl1 and ⫿W0lδ~xtl are defined in 4.1.
Program 1 Random Variables induced from Tensor Program for the Linear Network with LR η=1 and frozen U,V.
简而言之,张量程序(TP)。

当训练神经网络时,我们可以将此过程视为从一组初始随机向量和矩阵(初始化权重)以及一些确定性量(本例中的数据集)连续创建新向量和标量的过程。 第一步,前向传播创建特征 x0l(其中下标 0 表示初始化)和标量 f0(网络输出)。 在第一次向后传递中,计算输出导数 χ0,然后反向传播梯度 δx0l (由于 δx0l 的坐标在 n 时消失为 0,因此 TP 会跟踪其标准化版本 δ~x0l=defnδx0l。) 随着训练的进行,新的向量被创建并附加到 TP 中。 When the width n goes to infinity, vectors of size n in the TP (e.g., the features xtl, and normalized gradients δ~xtl) see their coordinates converge to roughly iid random variables (e.g., ⫿xtl and ⫿δ~xtl in Program 1), and other scalar quantities (e.g., ft and χt) converge to deterministic values (e.g., f̊t and χ̊t in Program 1) under proper parametrization (μP). 主定理[25]通过表征训练过程的无限宽度限制来捕获这些量的行为。 有关 TP 的更深入定义和详细信息,请读者参阅[25]

现在,当我们回顾程序1时,标量和随机变量的定义应该很清楚(⫿W0lxtl1⫿W0lδ~xtl除外)。 人们可以找到它们与其有限对应物之间的直接对应关系,例如:

  • f̊t对应ft,χ̊t对应χt

  • ⫿xtl对应于xtl,⫿δ~xtl对应于δ~xtl (回想一下 δ~xtl=nδxtlδxtl 的规范化版本。)

  • 通过 SGD,Wtl=W0l1Ls=0t1δxslxsl1 对应于 ⫿Wtlxtl1=⫿W0lxtl11Ls=0t1⫿δ~xslxsl1⫿xtl1

现在我们可以深入研究 ⫿W0lxtl1⫿W0lδ~xtl 的定义。 𝒲 为大小为 n×n 的初始随机矩阵的集合,即 {W01,,W0L}𝒲=def{W:W𝒲} 𝒱W 表示对于某些 y 形式为 Wy 的训练中的所有向量的集合。 然后对于每个W𝒲𝒲Wy𝒱W,我们可以将⫿Wy分解为⫿Wy^⫿Wy˙之和,其中 ⫿Wy^ 是一个随机变量,就像 W 独立于 y 一样,⫿Wy˙ 是捕获相关部分的随机变量在 Wy 具体来说,让我们简单跟踪一下训练期间 W0lxtl1 发生了什么。 在第一步中,我们有 W0lx0l1 ,它具有大致高斯坐标(在大宽度限制内)。 在本例中,我们有 ⫿W0lx0l1˙=0 在第一次回溯后,我们会得到 δx0l1=δx0l+1LW0lδx0l,这意味着 Wl1 中的更新将包含某个向量 zW0lz 形式的项。 这意味着 W0lx1l1 将包含某个向量 zW0lW0lz 形式的项。 当我们将宽度设为无穷大时,这项会产生一个额外的相关项。 ⫿W0lx1l1˙ 是通过将此附加相关项与 W0lW0lz 分离来定义的。 其余项在无限宽度限制中是高斯分布,它定义了项 ⫿W0lx1l1^ 正式地,我们提出以下定义。

Definition 4.1

我们为每个 W𝒲𝒲Wy𝒱W 定义 ⫿Wy=def⫿Wy^+⫿Wy˙,其中

  • ⫿Wy^ 是均值为零的高斯变量。 W𝒲𝒲,Wy,Wz𝒱W

    Cov(⫿Wy^,⫿Wz^)=defy⫿z.

    如果WW,则W,W𝒲𝒲,Wy𝒱W,Wz𝒱W⫿Wy^⫿Wz^ 是独立的。 ⫿Wy^ 也独立于 ⫿U⫿nV

  • ⫿Wy˙被定义为{⫿z:Wz𝒱W}的线性组合。 然后我们可以将任何 ⫿y 归纳展开为 ⫿^⫿U⫿nV 的线性组合,这使我们能够完全定义

    ⫿Wy˙=defWz𝒱W⫿z⫿y⫿Wz^.

4.2 随机变量的深度缩放

正如4.1中提到的,⫿xtl⫿δ~xtl1都可以写成“基”随机变量的线性组合:{⫿W0mxsm1^}s{0,,t},m[L],{⫿W0mδ~xsm^}s{0,,t},m[L],⫿U⫿nV 此外,线性组合的系数可以通过递归方式计算:通过使用4.1扩展⫿W0lxtl1,我们有

⫿xtl=⫿xtl1+1L⫿W0lxtl1^+1Ls=1t1⫿δ~xsl(⫿xtl1⫿W0lδ~xsl^1Lxsl1⫿xtl1).

⫿δ~xtl的递归公式类似。

利用这个归纳法,我们要求在线性组合中,每个⫿^的系数为𝒪(1/L),⫿U⫿nV的系数是𝒪(1) 我们还声称任何 ⫿xtl⫿δ~xtl1 形式的随机变量对之间的协方差为 𝒪(1)

Proposition 4.2.

t,st,l,m⫿y{⫿xtl,⫿δ~xtl}

⫿y⫿W0mxsm1^=𝒪(1L),⫿y⫿W0mδ~xsm^=𝒪(1L),⫿y⫿U=𝒪(1),⫿y⫿nV=𝒪(1).

t,s,l,m⫿y{⫿xtl,⫿δ~xtl}⫿z{⫿xsm,⫿δ~xsm}

y⫿z=𝒪(1).

4.2的推理在附录C中提供。请注意,协方差的计算也可以写成递归公式。 推理本质上依赖于归纳论证。

4.3 无限深度限制

现在我们将上面的论点形式化,并获得描述L时网络动态的公式。 我们首先将线性组合的系数写为六维张量𝚪t,s,a,b,l,m,其中t,s{0,,T1},a,b{0,1},l,m[L] 具体来说,𝚪t,s,a,b,l,m 表示 ⫿xtl⫿δ~xtl w.r.t 的导数。 ⫿W0mxsm1^⫿W0mδ~xsm^ 这里,我们使用 0 表示前向传播中出现的 ket(⫿xtl⫿W0mxsm1^),使用 1 表示前向传播中出现的 ket。向后传递(⫿δ~xtl⫿W0mδ~xsm^)。 形式上,𝚪t,s,0,0,l,m=⫿xtl⫿W0mxsm1^𝚪t,s,0,1,l,m=⫿xtl⫿W0mδ~xsm^𝚪t,s,1,0,l,m=⫿δ~xtl⫿W0mxsm1^𝚪t,s,1,1,l,m=⫿δ~xtl⫿W0mδ~xsm^

然而,很难描述𝚪的极限,因为它的大小随着L的增加而增加。因此,我们定义了以下一组函数{Γt,s,a,b:[0,1]×(0,1]}t{0,,T1},s{1,,t},a,b{0,1}:对于s0

Γt,s,a,b(p,q)=L𝚪t,s,a,b,Lp,Lq

对于s=1Γt,1,0,0(p,q)=⫿xtLp⫿U,Γt,1,0,1(p,q)=⫿xtLp⫿nV,Γt,1,1,0(p,q)=⫿δ~xtLp⫿U,Γt,1,1,1(p,q)=⫿δ~xtLp⫿nV.

这里 l,m 被标准化为 [0,1],因此对于不同的 L,Γ 的输入域是相同的; 𝚪t,s,a,b,l,m 乘以 L,因为 𝚪t,s,a,b,l,m=𝒪(1/L) 乘以 4.2;额外的 s=1 情况还可以帮助我们捕获 w.r.t 的导数。 ⫿U⫿nV

同样,我们还可以定义另一组函数{Ct,s,a:(0,1]}t,s{1,,T1},a{0,1}来描述“基”随机变量之间的协方差:p(0,1],令l=Lp

  • Ct,s,0(p)=defCov(⫿W0lxtl1^,⫿W0lxsl1^)=xtl1⫿xsl1

  • Ct,s,1(p)=defCov(⫿W0lδ~xtl^,⫿W0lδ~xsl^)=δ~xtl⫿δ~xsl

对于t=1C1,1,0(p)=defCov(⫿U,⫿U)=1C1,1,1(p)=defCov(⫿nV,⫿nV)=1,到4.1,不同“组”的“基”随机变量是独立的,所以我们只跟踪上面列出的协方差。

使用ΓC的这个定义,可以很方便地在下面的引理中写出它们的递归公式。

Lemma 4.3 (ΓC的有限深度递归公式(引理的非正式版本 C.1)).

Γ C 可以递归计算如下:

Γt,r,0,b(lL,q)= Γt,r,0,b(l1L,q)+𝕀[(t=r)(b=0)(l=Lq)]
+1Ls=0t1Γs,r,1,b(lL,q)(Γt,s,0,1(l1L,lL)Ct,s,0(lL)).
Γt,r,1,b(l1L,q)= Γt,r,1,b(lL,q)+𝕀[(t=r)(b=1)(l=Lq)]
+1Ls=0t1Γs,r,0,b(l1L,q)(Γt,s,1,0(lL,lL)Ct,s,1(lL)).
Ct,s,a(p)=t=1ts=1sb{0,1}01Γt,t,a,b(l/L,q)Ct,s,b(q)Γs,s,a,b(l/L,q)dq,

其中如果 a=0 则为 l=Lp1,如果 a=1 则为 l=Lp

引理 4.3的证明从程序1中很简单。 附录 C中,我们还给出了一个正式证明,即在 L2 的幂的情况下,当 L 增长到无穷大时,ΓC 收敛。 为了证明方便,限制L2的幂,并且ΓC收敛成立在一般情况下。 此外,我们根据Lemma 4.3中的ΓC的递归推导出无限深度行为。 t2>。

Proposition 4.4 (ΓC的无限深度限制(C.2的非正式版本) )).

在极限 L 内,我们有

Γt,r,0,b(p,q)=𝕀[(t=r)(b=0)(pq)]+0ps=0t1Γs,r,1,b(p,q)(Γt,s,0,1(p,p)Ct,s,0(p))dp;
Γt,r,1,b(p,q)=𝕀[(t=r)(b=1)(pq)]+p1s=0t1Γs,r,0,b(p,q)(Γt,s,1,0(p,p)Ct,s,1(p))dp;
Ct,s,a(p)=t=1ts=1sb{0,1}01Γt,t,a,b(p,q)Ct,s,b(q)Γs,s,a,b(p,q)dq.

4.4的证明来自引理4.3 严格的证明需要首先证明满足(Γ,C)对的积分泛函解的存在性。 该解通常是4.4中积分泛函的不动点。 证明存在性后,需要证明(Γ,C)收敛于这一极限。 这通常需要控制有限深度和无限深度解之间的差异,并涉及获得误差传播的上限。 积分泛函在温和条件下保证存在。 我们在这里省略了存在性的完整证明,并假设泛函的行为足够良好,可以使收敛结果成立。 附录ΓC对于L=2k(k)收敛的形式证明> C 是命题正确性的展示。

这给出了分布的收敛:

Theorem 4.1.

L 限制下,kets ⫿xsL,s=0,1,, 在分布上收敛为具有核的零均值高斯过程

xsL⫿xtL=Ct,s,1(1).

因此,对于每个固定的神经元索引 α,集合 {xαsL}s0nL 的极限中,其分布趋近于核 Ct,s,1(1) 的零均值高斯过程。

对于熟悉随机过程的观众来说,实际上我们在 Skorohod 拓扑中整个连续深度索引过程 {⫿xsp,⫿δxsp}p[0,1],s0 的收敛性很弱。

5什么原因导致超参数传递?

在一个流行的误解中,超参数传递意味着极限的存在。 例如,μP 传输超参数,在这种误解中,是因为存在特征学习限制(又名 μ 限制),即 μP 随着宽度趋于无穷大。 然而,这种情况并非如此。 事实上,存在大量的无限宽度限制,例如 NTK 限制,但最优超参数的缩放方式只能有一种,因此存在并不意味着转移。 在这种误解的更强烈的版本中,迁移是由“特征学习”限制的存在所暗示的。 但同样,这是错误的,因为存在无限数量的特征学习限制(其中 μ 限制是唯一的最大限制)。

相反,事实是,最优限制意味着最优超参数的传输。 例如,在宽度限制情况下,μP 是产生最大特征学习限制的唯一参数化。 与所有其他限制相比,这显然是最佳限制。 因此μP可以跨宽度传输超参数。

到目前为止,对于极限的“最优性”还没有先验定义:人们只能通过分类所有可能的极限来判断;事实证明,在限制中只能发生少量不同的行为,因此可以手动检查哪个限制是最佳的。

同样,在这项工作中,为了推导允许传输的深度缩放,我们需要分类所有可能的无限深度限制 - 以及深度-μP从我们在本文后面定义的意义上来说,将被证明是最优的。101010这里有一些重要的细微差别,将在即将发表的论文中详细说明。 例如,如果超参数的空间选择不正确,那么无论以何种方式都可能出现最佳限制。 例如,如果在(宽度方向)SP 中,只考虑全局学习率的一维空间,那么所有无限宽度限制都是有缺陷的——而且实际上不存在越大的总是越好的超参数传递。 比宽度情况更有趣的是,在采用深度限制时,我们有多种特征学习模式,并且辨别哪种特征学习模式是最佳的很重要。 因此,即使通过特征学习,也不足以得出任何一个限制,并能够推断它产生 HP 转移。

部分10中,我们提供了1/L块缩放(α,γ)=(1,0)(又名ODE缩放)的实验,事实证明,这会导致无限深度限制的特征学习,但不是最优的。 我们的结果表明,通过这种参数化,最佳学习率发生了显着变化。

6 一般情况的预备知识

对于一般情况,我们回顾并扩展了前面部分的符号,并定义了新的符号。

符号

L为网络的深度,即残差块的数量,n为网络的宽度,即所有隐藏表示的维度x0,,xL ξdin为网络的输入,Un×din为输入层,Vn×e为输出层,因此x0=Uξ和模型输出 w.r.t. ξf(ξ)VxL 为吸收标签的损失函数,δxlxl w.r.t 的梯度。 的损失。 我们通过添加 t 作为下标来表示 t 第训练步骤的变量,例如,步骤 t 的输入是 ξt111111这里,输入用于在训练步骤t中执行一个梯度步骤。稍后我们将看到,我们的主张原则上应该适用于训练算法的批处理版本。,第 l 层在步骤 t 的隐藏表示为 xtl,步骤 t 的模型输出为 ft。令 T 为训练步数。

6.1 SGD、Adam 和所有 Entrywise 优化器的统一扩展

我们扩展了深度缩放的entrywise更新([24])的定义,使我们能够研究SGD、Adam和其他仅执行entrywise操作的优化算法的统一深度缩放。

Definition 6.1

具有宽度和深度缩放的参数w的基于梯度的更新由一组函数𝑸={Qt:t+1}t0c,d,δ,γ,η定义。 优化时间t的更新为

wwηncLγQt(ndLδg0,,ndLδgt),

其中gs,s=0,,tw在时间s的梯度。

对于 SGD,Qt(ndLδg0,,ndLδgt)=ndLδgt,“真实”学习率为 ηnc+dLγ+δ 对于亚当来说,

Qt(ndLδg0,,ndLδgt)=1β11β1t+1s=0tβ1tsndLδgs1β21β2t+1s=0tβ2ts(ndLδgs)2+ϵ,

“真实”学习率为ηncLγ

Qt 之前乘以梯度 ndLδ 的目的是确保 Qt 的输入是 Θ(1) w.r.t。 nL121212Yang和Littwin [24]中被称为忠诚。;否则,当 nL 变大时,更新可能会变得微不足道。 例如,如果梯度是 o(1) 条目,那么,在 Adam 中,直接将梯度提供给 Qt 将始终给出 0 的输出,因为常量 ϵ>0

在本文中,我们仅考虑d,δ,使得ndLδgΘ(1)131313注意 定义 6.1中的 c,d,δ,γ,η对参数的要求可以不同,因此可以使每个参数都满足条件。 结果,Qt的输出一般也是Θ(1) 因此,ncLγ决定了更新的规模,应该是我们关注的重点。 我们将ηncLγ称为有效学习率

6.2 μP 和宽度缩放

最大更新参数化(μP)[21]考虑了宽度扩大时网络中每个权重矩阵的初始化和学习率的变化。141414重新参数化也包含在原始μP中,但对于本文的目的来说不是必需的。 它为每个权重矩阵提供了一个独特的初始化和学习率,作为宽度n的函数,使得每个权重矩阵的更新最大化(达到恒定因子)。 μP的好处不仅在于理论上的保证,还在于扩大宽度[23]时的超参数稳定性。

在本文中,我们假设宽度缩放遵循μP。即有效学习率ηncLγ中的c和各权重矩阵的初始化方差如下Table2

表2: μP 的宽度方向缩放,其中 c(在 Definition6.1 中定义)描述宽度方向有效学习率的缩放。
Input weights Output weights Hidden weights
Init. Var. 1 n2 n1
c 0 1 1

6.3 我们的设置

我们考虑一个带有无偏差感知器块的 L 隐藏层残差网络:

x0 =Uξ,
l[L],xl =LαMS(ϕ(hl))+xl1,hl=Wlxl1,
f =VxL.

其中 MS 指的是平均减法,对于任何 xn 来说,由 MS(x)=xx,1/n=GxG=I11/n 给出。 U,V的初始化和学习率遵循μP。 Wl的初始化遵循μP,Wl的学习率为ηn1Lγ

平均减法 (MS)。

一般来说,如果不进行均值减法,ϕ 的均值将主导深度动态。 例如,当 ϕ 为 relu 时,每一层只会将非负数添加到平均为正数的 xl 上。 如果乘数 Lα 太大,它在深度上的积累要么导致网络输出爆炸,要么缺乏特征多样性。 正如我们将看到的,均值减法消除了这种故障模式,并实现了更强大的无限深度限制。151515请注意,使用奇数非线性也将获得类似的结果,因为它们在对称分布的输入下没有平均值,这大约是这种情况在整个训练过程中为hl 这是我们之前讨论过的 ϕ = 身份的情况。 但事实证明,奇数非线性最小化了特征多样性,因此均值减法是一个更好的解决方案。

Definition 6.2

修复一组更新函数𝑸={Qt:t+1}t0 上述 MLP 残差网络的深度参数化由一组数字{α,γ,δ}指定,使得

  1. (A)

    我们独立地初始化 𝒩(0,n1)Wl 的每个条目

  2. (二)

    Wl的梯度在被Qt处理之前乘以nLδ:即,时间t的更新为

    WlWlηn1LγQtl(nLδg0,,nLδgt) (4)

    其中gs,s=0,,tWl在时间s的梯度,并且Qt按条目应用。

各种符号。

对于向量 x,令 [x]i 为其第 i 坐标。 对于矩阵 M,令 [M]i 为其第 i 行。 I 为单位矩阵,𝟏 为完整的向量。 对于m+,令[m]={1,,m} 为克罗内克积。

7 深度参数化的分类

在本节中,我们全面描述深度参数化对稳定性和更新大小的影响。 为此,我们只需跟踪两个缩放:分支乘数和学习率缩放,因为初始化缩放由忠实度属性(定义如下)固定。 要求特征在初始化时不会爆炸意味着分支乘数最多必须为 Θ(1/L) 假设更新是忠实的(即,梯度处理函数的输入是Θ(1)条目),则隐藏层的更新大小最多可以是1/L,通过(雅可比)运算符 -正常的争论,但可能要少得多。 简单地说,更新大小和初始化之间可以进行权衡:如果初始化很大,那么更新可能需要很小,以免炸毁网络的其他部分;如果初始化很大,那么更新可能需要很小,以免炸毁网络的其他部分;同样,如果初始化较小,则更新大小可以较大。 但人们可能会感到惊讶,仔细的计算表明没有权衡:我们可以同时最大化初始化和更新大小。

在深入探讨细节之前,我们首先要定义训练套路、稳定、忠实和非平凡的概念。 此后,所有渐近符号如𝒪Ωo都应理解为极限“n, then L”。 对于随机变量,这种符号应该从弱收敛(分布收敛)的意义上来理解。 当我们对某些向量x=(x1,,xn)n使用符号x=𝒪(1)时,它应该被理解为对于所有i[n],xi=𝒪(1) 最后,我们将使用粗体字符(例如 𝒉 而不是 h)来表示数量的“批量”版本。 这只是为了强调以下声明也适用于批量。

备注:在本节中,我们将结果表述为“声明”而不是定理。 在附录F.4中,我们提供了“启发式”证明,可以在不平凡的技术条件下进行严格证明。 我们还通过在附录D中的线性设置中严格证明它们来展示声明的正确性。我们认为这种额外的复杂性是不必要的,并且不符合本文的目的。

Definition 7.1 (训练例程).

训练例程是 η𝑸 和输入批次的包。

Definition 7.2 (稳定性)

我们说参数化是

  1. 1.

    初始化时稳定如果

    𝒉0l,𝒙0l=𝒪(1),l[L],and𝒇0=𝒪(1). (5)
  2. 2.

    训练期间稳定如果对于任何训练例程,任何时间t0l[L],我们有

    Δ𝒉tl,Δ𝒙tl=𝒪(1),l[L],andΔ𝒇t=𝒪(1),

    其中符号“Δ”指的是一个梯度步骤后的变化。

如果参数化在初始化和过程中都稳定,我们就说参数化是训练稳定

Definition 7.3 (忠实)

如果𝒉tl=Θ(1)对于所有l[L],我们说参数化在步骤t是忠实的。 如果参数化对于所有t都是忠实的,我们就说参数化是忠实的。我们还说它在初始化时是忠实的(resp。 在训练期间忠实)如果在 t=0 处为真(resp. 对于t1)。

注意这里的忠实指的是“忠实于ϕ”,意味着ϕ的输入是Θ(1) 这与 Yang 和 Littwin [24] 中忠实度的定义不同,其中忠实度是指“忠实于 Q”,这意味着 Q 的输入是Θ(1) 部分6.1中所述,本工作中已假设“忠实于Q”。

Definition 7.4 (非平凡性)

如果对于每个训练例程和任意时间 t1𝒇t𝒇0a.s.0,在"n, 然后 L"的极限中(即函数不会在无限宽--然后--深度的极限中演化),我们说一个参数化是 三维的 否则我们说参数化是非平凡的

Definition 7.5 (特征学习).

我们说参数化在限制“n,然后L”中引入特征学习,如果存在训练例程,并且t1,以及任何 λ>0,我们有 Δ𝒉tλL=Θ(1)

7.1 主要权利要求

我们现在准备公布主要结果。 下一个声明提供了参数化在初始化时稳定的充分必要条件。

Claim 7.1.

参数化在初始化时是稳定的当且仅当α1/2

声明 7.1并不新鲜,Hayou等人[7]也报告了类似的结果。 然而,Hayou 等人[7]侧重于初始化,缺乏训练过程中类似的稳定性分析。 在下一个结果中,我们根据学习率的缩放确定了两种不同的行为。

Claim 7.2

考虑初始化时稳定的参数化。 然后进行以下保持(彼此分开)。

  • 训练时也很稳定,当且仅当α+γ1

  • 这是不平凡的当且仅当α+γ1

因此,它既稳定又不平凡当且仅当α+γ=1

Claim7.1Claim7.2,有α+γ=1α1/2 是参数化在整个训练过程中稳定且重要的充分必要条件。 因此,在下一个结果中,我们将分析限制在此类参数化上,并研究它们的真实性。

Claim 7.3.

考虑稳定且重要的参数化。 以下保持(彼此分开)。

  • 它在初始化时是忠实的,当且仅当α1/2。因此,α=1/2α的最小选择 这保证了忠诚度。

  • 训练期间忠实当且仅当α1

因此,稳定且重要的参数化是忠实的当且仅当α[1/2,1]

第一个主张源自众所周知的随机初始化残差网络[7]的计算。 对于第二个声明,这里的直觉是如果 α+γ=1α>1 那么 γ<0,即更新大小随着深度而增加。 这将导致非线性输入的尺寸增大。

有人可能会说,初始化时的忠实度并不重要(例如,初始化时的特征可以收敛到零,而不会出现任何稳定性或琐碎问题),重要的是整个训练过程中的忠实度。 事实证明,初始化时的忠实度对于网络容量的优化使用起着至关重要的作用。 为了看到这一点,我们首先定义特征多样性指数的概念,它与相邻层特征的相似性有关。

Definition 7.6 (特征多样性指数)

如果 κ 是最大值,那么对于所有 λ[0,1] 和足够小的 ϵ>0,我们说参数化具有特征多样性指数 κ0,并且所有时间t

1n𝒙t(λ+ϵ)L𝒙tλL=Ω(ϵ1κ),

其中 Ω(1) 应解释为限制“n,然后 L,然后 ϵ0”。 如果κ=0,我们就说参数化是冗余

换句话说,特征多样性指数 κ 是对彼此接近的层中的输出差异程度的度量。 对于κ=0,每一层的输出本质上与前一层的输出相同,因为从一层到下一层的变化率是有界的(至少是局部的),因此网络直观上是在“浪费”参数。

Claim 7.4.

考虑一个稳定且重要的参数化,该参数化在训练期间(但不一定在初始化时)更加忠实。 那么如果α(1/2,1]是多余的。

要理解 Claim 7.4 背后的直觉,让我们看看 α>1/2 时会发生什么。 在这种情况下,随着深度的增加,初始化权重的随机性不会对训练轨迹产生影响。 要看到这一点,请考虑一些图层索引λL 这些块被 Lα 划分,该值大于累积随机性的大小(顺序为 (λL)1/2)。 这基本上破坏了初始化的所有随机性,因此学习特征中的随机性将仅包含来自 UV (输入和输出矩阵)的随机性。 当深度趋于无穷大时,两个相邻层中随机性的贡献变得不那么重要,最终相邻层变得非常相似,因为这些层的梯度高度相关。

相反,我们得到以下结果,它定义了 Depth-μP。

Claim 7.5 (深度 -μP)

α=γ=1/2 是独特的参数化,它是稳定的、重要的、忠实的、诱导特征学习,并通过κ=1/2实现最大的特征多样性。

就特征多样性而言,当α=1/2时发生相变现象。 更准确地说,对于 Depth-μP,我们可以证明 n1/2𝒙t(λ+ϵ)L𝒙tλL=𝒪(ϵ1/2) 而对于所有 α(1/2,1] 来说,相同的数量是 𝒪(ϵ),这表明Depth-μP 生成 𝒙t粗略路径。 这允许特征从一层到下一层发生显着变化,从而有效地使用参数。 对于熟悉粗糙路径理论的读者来说,1/2连续性指数是路径中布朗增量的结果。161616读者可能会问我们能否得到小于1/2的指数。 这确实是可能的,但需要使用相关权重。 我们把这个问题留给未来的工作。

此外,对于α=1,存在特征崩溃的现象,即特征将包含在由输入层和输出层生成的σ代数中,但不包含随机性来自隐藏层(参见部分 F.2)。 直观上,α=1 的情况类似于宽度情况,其中深度平均场塌陷为单个神经元(所有神经元变得本质上相同)。 对于深度而言,特征(层)仍然相对不同,但冗余不允许这些特征发生显着变化。

7.2 Sublety:分层(局部)线性化,但不是全局线性化

Definition 7.7

我们说参数化引起分层线性化当且仅当当L(即l[L])时每层都可以在不改变网络输出的情况下进行线性化,

LαG(ϕ(Wtl𝒙tl1)ϕ(W0l𝒙tl1)ϕ(W0l𝒙tl1)((WtlW0l)𝒙tl1))=o(L1)
Claim 7.6

稳定且重要的参数化会导致分层线性化 iff α[1/2,1)

但是,请注意,这并不意味着整个网络是线性化的(w.r.t. 神经正切核意义上的所有参数)。 在我们的设置中,输入和输出层以恒定比例初始化(w.r.t. L),实际上不可能有内核限制。 即使在 Section 4 中的线性情况下,我们也可以看到学习的模型不是线性的。

如果输出层的初始化比我们的设置大L倍(假设Ln,因此宽度缩放仍然遵循μP),它可能会引起参数化可以使整个网络线性化。 在这种情况下,学习率必须小于Depth-μP的L倍才能获得训练过程中的稳定性,因此参数的变化也是L倍小,这可以导致整个网络的线性化。 由于我们专注于最大特征学习,因此严格的论证超出了本文的范围。

8功能多样性

在本节中,我们表明非线性的选择和非线性的放置可以极大地影响特征多样性。

8.1梯度多样性

梯度多样性是特征多样性的重要因素。 观察 xl 处的梯度 δxl 在极限 L 内的 l 中是连续的。 在线性模型(或前非线性模型,其中非线性被置于权重之前)中,这会导致相邻块之间的 δhl=Lαδxl 非常相似。 结果(因为权重 Wl 接收与 δhlxl1 成比例的更新),在下一个前向传递中,相邻块对主分支 xl 的贡献非常相似。 这导致模型容量的浪费。

8.2 Pre-Nonlin 导致性能不佳

例如,在 2中,对于一个 relu 前非线性重网(即图块由 Wlϕ(xl1) 而不是 ϕ(Wlxl1) 给出),我们可以看到,虽然深度-μP 确实转移了超参数(正如我们的理论所预测的那样),但其性能却大大低于 10 中的后非线性重构网络,并且深度超过 8 层后性能没有任何提升。 具体来说,这是因为δhl=Lαδxl类似于线性情况,而ϕ(xl1)在相邻块之间也相似。 因此,权重 Wl 的梯度与 δhlϕ(xl1) 成比例,与附近的块相比几乎没有多样性。

Refer to caption
Refer to caption
图2: Pre-Nonlin 导致性能不佳 虽然 Pre-Nonlin resnet 的深度 -μP 确实传输了超参数(左),但深度超过 8 层后并没有带来任何性能提升,而且性能明显比后非林 resnet(右)。 在右图中,“最小对数损失”是所有块乘数和学习率的最小对数损失。 网络在 Adam 的 CIFAR-10 上进行训练。 有关设置的更多详细信息,请参阅10

8.3 利用绝对值非线性最大化特征多样性

在非线性模型中,我们有δhl=δxlϕ(hl) 由于 hl 几乎独立于 Depth-μP 限制中的所有其他 hm,ml,因此 ϕ(hl) 可以用于解相关 δhl,取决于 ϕ 是什么。 例如,如果 ϕ 是 relu,则 ϕ 是阶跃函数。 hl 近似为深度 μP 限制内的零均值高斯分布,因此 ϕ(hl) 近似为 0 或 1,各有一半概率。 这比线性情况更好地解相关 δhl 但当然,这种推理自然会得出这样的结论:ϕ=sign 将是 δhl 的最佳解相关器,并且是特征多样性的最大化(其中 ϕ正 1-齐次函数的类) - 那么 δhlδhm 对于 lm 是完全去相关的。

事实上,如图 3所示,将绝对值替换为ϕ可以极大地提高深度(块)的训练性能深度1)resnets。

Refer to caption
Refer to caption
图3: 通过绝对值非线性提高性能,从而最大限度地提高特征多样性。 (网络在 Adam 的 CIFAR-10 上进行训练。)。 有关设置的更多详细信息,请参阅10

一般来说,任何非线性都可以代替绝对值。

8.4 特征多样性与分层线性化处于紧张状态

ϕ(hl) 能够解相关 δhl 的原因与分层线性化有很大关系。 回想一下,在 Depth-μP 中,hl 可以分解为大小为 Θ(1) 的零均值高斯部分 h^l 和修正项 h˙l 大小为 Θ(L1/2)(对应于分解 ⫿hl=⫿hl^+⫿hl˙)。 对于 ml,h^l 独立于 h^m,但 h˙l 可以与所有其他 h˙m 非常强地相关。 因此,ϕ(hl)可以去相关δhl,正是因为h^l支配h˙l,这也正是我们进行分层线性化的原因。

1/L缩放(α,γ)=(1,0)时,h^lh˙l同阶,不会发生分层线性化,但ϕ(hl) 无法再有效地解相关 δhl

我们再次提醒读者,这种情况下的分层线性化并不是有害的(在块深度为 1 的情况下),因为 h^l 实际上累积了所有先前块的学习特征的贡献,因此强烈依赖于学习轨迹(与(横向)NTK 情况相反,其中 h^l 在初始化时已确定)。

9 块深度2及以上

符号备注: 在这里和下一节中,所有大 O 表示法仅在 L 中;假设宽度缩放在μP 中。

在这项工作的大部分内容中,我们考虑了 eq. 1gl 的深度 1 MLP,很简单导出并分类每个块中较大深度的无限宽度然后无限深度的限制。 特别是,以下 1/L 缩放在具有块深度 k 的更一般设置中仍然有意义,并导致明确定义的限制:

xl =xl1+aLgl(xl1;Wl1,,Wlk),Θ(1) initialization scale,Θ(1/L) learning rate (6)

这就是我们在块深度为 1 的情况下所说的 Depth-μP,但我们不会在一般块深度的情况下使用这个名称,因为此参数化不再是最佳的171717最佳的确切含义将在下面解释。

9.1 块深度2有缺陷

一个非常明显的症状是,在匹配参数计数时,块深度 2 的 resnet 的性能比块深度 1 的网络差,尽管它们可以(但并不总是)捕获长时间训练后(无花果。 4 5)。

Refer to caption
Refer to caption
图4: 块深度 2 < 块深度 1,Relu 在没有 LN 的 ReLU resnet 中,当匹配总层数(以及参数计数)时,块深度 2 的表现比块深度 1 差。 然而,更长的训练(38000 步,右)有助于它赶上(与 11000 步相比,左)。 y 轴是所有块乘数和学习率的最小对数损失
Refer to caption
Refer to caption
图5: 块深度 2 < 块深度 1,绝对值 在具有 LN 的ABS resnet 中,当匹配总层数(以及参数计数)时,块深度 2 的表现明显比块深度 1 差。 更长的训练(38000 步,右)并不能缩小性能差距(与 11000 步相比,左)。 y 轴是所有块乘数和学习率的最小对数损失

同时,随着块总数的增加,我们看到超参数发生了不平凡甚至显着的变化( 6)。

Refer to caption
Refer to caption
图6: 不带 LN 的 relu resnet(左)和带 LN 的 abs resnet(右)中的块深度 2 超参数偏移

9.2 1/L块深度2缩放的缺陷

在块深度 2 情况下 1/L 缩放不再精细的原因是块中各层之间的乘法交互的线性化 事实上,就像块深度为 1 的情况一样,1/L 缩放会强制每个权重矩阵的权重更新 ΔW Θ(L) 小于初始化 W0 因此,在块内,深度L较大时的训练动态处于内核状态,其中对块输出g(x;W)的贡献仅是求和,而不是每层权重更新的单独贡献的产品

当在所有 L 块上聚合时,结果是块之间仅存在 ΔW 的乘法交互,而层内则没有。 换句话说,网络输出由 MLM1 形式的贡献主导,例如在线性情况下,其中每个 Ml 可以是 I,W0l2W0l1,W0l2ΔWl1, 之一或 ΔWl2W0l1,但不是 ΔWl2ΔWl1 所有其他贡献(都涉及块内交互,如 ΔWl2ΔWl1)都是副标题。 在一般非线性情况下,替换块

ϕ(Wl2ϕ(Wl1xl1))

与线性化版本

ϕ(hl)+ϕ(hl)[ΔWl2ϕ(hl)]+ϕ(hl)[W0l2(ϕ(hl)[ΔWl1xl1])]

将实现与深度 L 相同的性能,其中 hl=W0l2ϕ(hl)hl=W0l1xl1

当块深度k=1(我们在这项工作中的主要研究对象)时,所有交互都被包括在内,但当k>1时,情况不再如此。

7中,损失热图作为块乘数和学习率的函数,生动地证明了块深度2的这一点。

深度小

当块数为21时,(学习率,块乘数)的最佳子级别集具有斜率2 换句话说,在最佳值附近,将学习率加倍同时将块乘数除以 4 具有类似的性能。 这是因为ΔWl1ΔWl2以乘法方式交互,因此它们的大小加倍会导致它们对块输出的贡献增加四倍。 块乘数同时减少 4,则大致保持其贡献大小不变。

大深度

另一方面,当深度为 210 时,最佳子级别集具有斜率 1:将学习率加倍,同时将块乘数减半具有类似的性能。 这反映了 ΔWl1ΔWl2 现在相加地交互这一事实。

中间深度插入了这种现象,如深度 25 图中所示。

Refer to caption
图7: 随着深度从 21210,(学习率、区块乘数)空间中的最优子级集的 "斜率 "会从 2 变为 1 在这里,我们使用绝对值非线性和层归一化、块深度 2,并使用 Adam 在 CIFAR-10 上对网络进行 50 轮训练。

在相同的热图中,我们可以看到随着深度从 25 变化,最优(学习率、块乘数)(在 1/L 参数化中)从网格中部移动到左上角> 到 210,证明缺乏超参数传输。

这种斜率的变化在 ReLU 网络中也可以看到,无论有没有层范数。

最后,我们注意到,1/L 缩放仍然会产生 L 限制,其中网络仍然学习整体特征,即使在每个块中这不再是正确的。 因此,这再次提醒我们,单纯的“特征学习”并不意味着“超参数迁移”!

9.3 参数化的分类

这些热图已经证明,没有参数化(全局学习率181818meaning, the learning tied across all layers in a block中,块乘法器)可以稳健地传输超参数,因为任何此类参数化只能移动热图,但不能拉伸它们,所以无法将一个斜坡的子标高组“转移”到另一斜坡的子标高组中。

但是,即使我们允许块中各层之间的学习率有所不同,也没有稳定、忠实、重要的参数化可以避免上述线性化问题。

为了简单起见,固定正齐次非线性和块深度 2。191919but our arguments generalize trivially to arbitrary block depth 2我们考虑由块中每一层的学习率以及块乘数(每个块一个)组成的超参数空间; WLOG 所有权重均已初始化Θ(1)202020This is WLOG because the nonlinearities are homogeneous 这会产生一个维度为blockdepth+1=3

事实上,要发生这种情况,对于某些i,权重更新ΔWli必须至少为Ω(1)(初始化大小)。 但这会给块输出 gl=gl(xl1;W) 带来一个与噪声项一样大的漂移项。 这意味着参数化不稳定(如果块乘数 LαΩ(1/L))或缺乏特征多样性(如果块乘数 LαO(1/L))。

例如,在线性模型中,

Lα⫿gl=⫿Wl2Wl1xl1=⫿W0l2Wl1xl1^+⫿W0l2Wl1xl1˙+⫿ΔWl2Wl1xl1.

⫿W0l2Wl1xl1^l(噪声项)上是独立且零均值的,而 ⫿W0l2Wl1xl1˙+⫿ΔWl2Wl1xl1l(漂移项)上是相关的。 ⫿W0l2Wl1xl1^ 始终是 Θ(1),因为 W0l2,W0l1 是。 如果ΔWl2Ω(1),则⫿ΔWl2Wl1xl1=Ω(1)也是如此,使得漂移项与噪声项一样大。 如果ΔWl1Ω(1),那么⫿W0l2ΔWl1xl1˙=Ω(1),导致⫿W0l2Wl1xl1˙=⫿W0l2W0l1xl1˙+⫿W0l2ΔWl1xl1˙Ω(1)212121我们还可以观察到,如果ΔWl1=Ω(1),那么通过对称性,后向传播也会遇到同样的问题。 但对于一般的块深度,这个论点没有说明任何关于中间层的事情,而上面提出的论点意味着对于任何i来说ΔWli不能是Ω(1)

相同的论点可以直接适用于非线性 MLP(均值减法)和任意块深度 2,以及不一定是正齐次的一般非线性,超参数空间扩大以包括初始化。

9.4 那么什么是最佳参数化?

所有上述考虑因素都表明,在增加每个块的复杂性时,我们在考虑中缺少关键的超参数 我们现在的研究类似于对 SP 中全局学习率的一维超参数空间的简单研究。 发现这些缺失的超参数将是未来工作的一个重要问题。

Refer to caption
图8: 经过训练的线性网络收敛到其无限宽度限制,该限制是基于 ΓC 递归计算的。深度固定为64,宽度在27,28,,213之间变化。 网络使用 SGD 进行 10 个步骤的训练。 第 1、5 和 10 步的均方根统计数据(y 轴)使用实线绘制,其中 x 轴是宽度。 均方根值是根据某些层(包括输入层、输出层和每个季度的隐藏层)的输出计算的。 无限宽度的相应值用虚线表示。
Refer to caption
图9: 在Depth-μP训练下,无限宽的线性网络随着深度的增加而收敛。 基于ΓC递归计算深度24,25,,29的无限宽线性网络。第 1、5 和 10 步的均方根统计数据(y 轴)在深度(x 轴)上绘制。

10实验

10.1 在线性情况下验证理论

部分4中,我们展示了线性网络训练动态的完整描述可以用Γ来表示> 和C。在本节中,我们提供了支持我们的理论发现的实证结果。 我们首先验证 LemmaΓ 的有限深度递归公式 4.3 是当宽度达到时的正确限制无穷大,然后继续证明无限深度极限是正确的。

无限宽度限制。

8中,我们训练了一系列宽度为27,28,,21364层线性网络在 MNIST 上使用 1,5,10 步骤,并绘制均方根222222向量x=(x1,,xn)的均方根为i=1nxi2n,在中表示为“l2” 89 使用实线的层输出。 我们还使用 Γ 的递归公式计算相应统计量的无限宽度限制,并将它们绘制为水平虚线。 为了使图形清晰,我们仅绘制索引 16、32、48 和 64 的输入层、输出层和隐藏层的统计数据。 很明显,随着宽度的增加,实线在整个训练台阶上一致地汇聚到虚线。 这表明我们对无限宽度限制的计算是正确的。

无限深度限制。

我们验证当深度增长时,上面的无限宽度限制收敛。 我们考虑相同架构的线性网络,但深度从 2429 不同。 我们再次使用Γ的递归公式计算层输出的均方根值,并将它们绘制在 9中t1>,深度为x轴。 为了使图更清晰,我们只绘制了输入层、输出层和隐藏层的统计数据,其索引分别为 L/4L/23L/4L。我们可以观察到,当深度从 24 增长到 29 时,层输出的统计量迅速收敛,这验证了我们的收敛结果。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图10: 训练宽度 n=256 和不同深度的对数损失与学习率。 该网络由 MLP 块(块深度为 1)组成,使用 Adam 在 CIFAR10 数据集上训练 50 个 epoch。 批量大小固定为64 我们调整深度23网络以获得最佳(log2(a),log2(η/1e3))=(1,0),并使用23作为基础深度缩放所有更深的网络。 读者可以检查每列中的L=23曲线是否相同。 我们展示了三个参数化的对数损失与隐藏层(输入/输出层固定)的学习率:深度-μP(Top),仅缩放块(无LR 缩放),即 γ=0(),以及无任何缩放的标准参数化(α=γ=0)(底部)。 每条曲线代表 k{1,2,,10} 深度 2k 的 1000 步时间片内的平均训练损失。 置信区间基于 5 个种子。 结果表明,Depth-μP 保留了最佳学习率,同时随着深度的增加持续改善损失。 如果我们在使用 Adam 进行训练时仅缩放块而不缩放 LR (α=1/2,γ=0),则最佳学习率会随深度发生显着变化。 通过没有任何深度缩放的标准参数化(常见做法),结果显示最佳学习率也发生了显着变化。 对于 SP,我们将日志损失限制为 1,这就是为什么对于深度 29,210,我们在 LogLoss=1 处有一条黑色水平线。

10.2 超参数传输

在本节中,我们提供经验证据来证明 Depth-μP 缩放的最优性以及某些量在深度上的可转移性。 我们使用 Adam 优化器在 CIFAR-10 数据集上训练块深度为 1(每个残差块中有 1 个 MLP 层)的普通残差网络,批量大小为 64,对于 50 epoch(输入和输出层数是固定的)。 网络参数化如下

xl=xl1+a×LαMS(ϕ(Wlxl1)),

权重按照规则进行训练

WlWlη×n1LγQtl(nLδg0,,nLδgt),

其中学习率η和块乘数a超参数232323注意,这里的η是常数,有效学习率由ηn1Lγ给出。 α,γ 的值取决于选择的参数化。 对于 Depth-μP,我们有 α=γ=1/2,对于标准参数化,我们有 α=0,γ=1242424在标准参数化中,通常没有随深度缩放学习率的规则,并且通常通过网格搜索找到最佳学习率。 在这里,我们假设在标准参数化中,学习率按 L1 缩放以保持忠实度。 在我们的实验中,我们假设基础深度 8,这意味着我们在上面的参数化中将 L 替换为 L/8

学习率迁移 (η)。

10中,我们显示了深度2kk{3,4,10}的训练损失与学习率>。 对于 Depth-μP,随着深度的增长,可以观察到最佳学习率的收敛模式。 小深度(例如 L=23)的最佳学习率表现出轻微的变化,这是应该预料到的,因为我们的理论表明在大深度限制下会收敛。 然而,从深度L=26开始,最佳学习率集中在103附近。 对于仅缩放乘数而不缩放 LR 的参数化(α=1/2γ=0),我们观察到最佳学习率发生显着变化。 对于没有任何深度缩放 (α=γ=0) 的标准参数化,随着深度的增长,最佳学习率会出现更显着的变化。 此外,即使为每个深度选择最佳学习率,当深度非常大时,性能仍然会下降,这表明标准参数化不适合深度缩放。 附录G中提供了具有多个时间片的其他图。

特征学习足以进行 HP 迁移吗?

部分5中,我们解释了超参数传输发生的时间和原因。 准确地说,为了获得 HP 传递,需要对所有特征学习限制进行分类并选择最佳的一个。 我们引入了特征多样性的概念,并表明 Depth-μP 在最大化特征多样性的意义上是最优的。 为了表明 HP 传输需要最优性,我们训练了一个带有 (α,γ)=(1,0) 的 resnet,这也是一个特征学习限制。 11显示,在这种情况下,学习率随深度呈现显着变化。 有趣的是,在这种情况下,常数 η 似乎随着深度的增加而增加,这表明网络正在尝试突破 ODE 限制,这是次优的。 请注意,在 Figure 10 中,与 Figure 11 中的 ODE 参数化相比,使用深度-μP 可以获得更好的训练损失。

Refer to caption
Refer to caption
图11: 参数化 (α,γ)=(1,0)(ODE 极限)的设置与 10 相同。
我们还有与 LayerNorm (LN) 的传输吗?

我们的理论仅考虑均值减法(MS),10显示了MS的结果。为了查看 LN 是否影响 HP 传输,我们使用与 10相同的设置来训练 resnet,其中绝对值非线性和 LN 应用于 xl1 在与 Wl 进行矩阵乘法之前(preLN)。 我们在非线性之后保留 MS,尽管它可以被删除,因为 LN 在下一层中应用。 12中报告的结果表明,Depth-μP 也保证了 LN 的学习率迁移。

Refer to caption
Refer to caption
图 12: 10的设置相同,在与 Wl 进行矩阵乘法之前,对 xl1 应用 Abs 非线性而不是 ReLU 和 LayerNorm。 我们展示了两种参数化的对数损失与隐藏层(输入/输出层固定)的学习率:深度-μP(Left)和仅缩放没有 LR 的块缩放 ((α,γ)=(1/2,0))()。 结果表明,Depth-μP 保留了最佳学习率,同时随着深度的增加持续改善损失。 如果我们在使用 Adam 进行训练时仅缩放块而不缩放 LR (α=1/2,γ=0),则最佳学习率会随深度发生显着变化。
块乘数传输 (a)。

13中,我们研究了超参数a在Depth-μP中的稳定性随着深度的增加。 结果表明,该常数的最佳值随着深度的增长而收敛,这表明可转移性。 附录G中提供了使用多个时间片的其他实验。

Refer to caption
Refer to caption
图 13: 训练不同深度的对数损失与块乘数a 10中的训练设置相同。 结果表明,随着深度的增加,Depth-μP 可以稳定超参数 a

10.3 Transformer 中会发生什么?

Refer to caption
图 14: 现代 Transformer 对块乘法器a不敏感。
Refer to caption
Refer to caption
图 15: 在接受 Common Crawl 训练的(威震天)Transformer 中,深度越深,最初表现越差(左),但最终表现得更好(右)。
Refer to caption
Refer to caption
图 16: 在 (Megatron) Transformer 训练的中间,最佳学习率近似不变(左),而在训练结束时,它大约按 1/L 缩放。 然而,在任何一种情况下,1/L 缩放都能更好地传递最大可行学习率。

因为 Transformer 的块深度为 2,如部分 9中讨论的,我们有足够的理由怀疑(学习率,块multiplier)将能够在 Transformer 的深度上稳健地传输超参数。

在这里,我们使用受过 Common Crawl 训练的威震天进行了大规模实验,并对我们的观察结果进行了分类。252525我们使用余弦衰减计划和 500 个预热步骤对模型进行 3900 个步骤的训练。 我们使用的序列长度为 4096,批量大小为 256,导致每次训练运行大约 4B 个 Token 。 总之,在我们的特定设置(应该接近大多数大型语言模型预训练)中,我们看到 1/L 缩放似乎在 (LABEL:{fig :megatron-scaling-shifts}(右))。 然而,我们也看到 1) 深度在初始训练中表现更差 (LABEL:{fig:megatron-deeper-worse}(左)),以及 2) 最佳超参数规模如 Θ(1) 训练中间( 16(左))。 结合 Section 9 的理论见解,这使我们得出结论,虽然 1/L 缩放实际上可能是可行的它在 Transformer 训练中很有用,但它可能对架构和算法的变化,甚至像训练时间这样的简单事情很脆弱。

事实上,我们观察到 Transformer 对块乘数 a 不敏感( 14),因此唯一的相关的超参数实际上只是学习率。 因此,如现代大规模预训练中所做的那样,凭经验测量最佳学习率的缩放趋势实际上可能是一种更稳健的传输超参数的方法。

这里L是Transformer层的数量,每个层由一个注意力层和一个MLP层组成(每个层的深度为2)。

10.4功能多样性

在本节中,我们将根据经验验证我们关于特征多样性指数的主张(Claims 7.47.5)。 我们使用与上一节相同的设置,即,我们使用 Adam 和批量大小 64 在 CIFAR-10 数据集上训练宽度 n=256 的深度残差网络。 17中,我们比较了两个参数化,Depth-μP (α=γ=1/2)和ODE 参数化(α,γ)=(1,0) 我们在 t=1000 处测量 𝒙t(λ+ϵ)L𝒙tλL=defd(ϵ) 的两个参数化和变化的深度。 对于每个参数化和深度L,我们通过乘以常数c来重新调整函数d,使得cd(1/256)=1,然后绘制重新调整后的函数cd 干净的演示。 我们可以清楚地观察到,对于任何 L,Depth-μP 的特征多样性指数(几乎)1/2,而当 L 增长时,ODE 参数化的曲线会从 ϵ1/2 变为 ϵ 这完全符合我们的理论,即 Depth-μP 最大化特征多样性,而其他参数化(即使使用特征学习)具有较小的特征多样性指数,应该在无限深度中达到 0限制。

Lt一起增长。

18中,我们在 t=100,500,1000 处测量 d(ϵ),并通过 除法 附加 ϵ0.5和常数 c 使 d(1/256)cϵ0.5=1 对其进行重新缩放、然后绘制重新缩放的函数 d/(cϵ0.5) 以对 dϵ0.5 进行简洁的比较。 我们观察到,对于 Depth-μP 和 ODE 参数化,曲线的斜率随着 Lt 一起增长。沿t的增长可以通过层之间的累积相关性来解释。 ODE 参数化沿 L 的增长是因为当 L 增长时,附近层之间的独立分量减少。 我们对 Depth-μP 沿 L 的增长没有清晰的理解,我们将其留作未来的工作。

绝对值激活增加了特征多样性。

19中,我们绘制了与18相同的曲线> 但比较 Depth-μP 下的 ReLU 激活和绝对值激活。我们观察到绝对值激活的曲线斜率小于 ReLU 激活。 它符合我们的理论,即绝对值激活会增加特征多样性。

Refer to caption
图 17: λL 层要素与 (λ+ϵ)L 层要素之间的差异,以宽度 n=256 和变化深度的 ϵ 曲线表示。 为了清晰的呈现,每条曲线都按常数缩放,因此它始终通过 (1/256,1) 特征多样性指数κ取决于L时曲线的增长。 对于 Depth-μP(左),曲线始终接近 ϵ1/2,即 κ=1/2 对于 ODE 参数化(右),当 L 增长时,曲线从 ϵ1/2 移动到 ϵ,表明其 κ 变为 0 在无限深度限制中。
Refer to caption
图 18: 17相同的设置,但在步骤t=100,500,1000,并且每条曲线通过除以常数和来缩放附加 ϵ1/2,因此它总是通过(1/256,1) 恰好指示特征多样性指数κ的曲线1/2应该是1处的水平线。 对于深度-μP (α=0.5),曲线几乎是水平的。 对于 ODE 参数化 (α=1),L 越大,t 越大,曲线的斜率越大。
Refer to caption
图 19: 18设置相同,但将 Depth-μP 与 ReLU 激活和绝对值激活进行比较。 每条曲线都通过除以常数和 ϵ1/2 进行缩放,因此它始终通过 (1/256,1) 恰好指示特征多样性指数κ的曲线1/2应该是1处的水平线。 对于这两种激活,曲线的斜率都很小,但随着 Lt 一起增长。绝对值激活的斜率 (ϕ=Abs) 比 ReLU 激活的斜率 (ϕ=ReLU) 慢,表明绝对值激活的特征多样性更高。

致谢

我们感谢张辉帅、杰里米·伯恩斯坦、爱德华·胡、迈克尔·桑塔克罗斯、卢卡斯·刘的有益评论和讨论。 D. Yu 得到了 NSF 和 ONR 的支持。 部分工作是D. Yu在微软实习期间完成的。

作者贡献

GY在探索阶段的早期开发了核心理论并进行了实验,大部分实验都在最终草案中进行。 DY 研究并证明了线性 resnet 的关键主张(包括极限方程、收敛性和参数化分类),起草了论文的第一个版本,并进行了实验验证理论主张(包括线性情况的收敛性和特征多样性)分离)。 CZ在探索阶段的后期进行了实验。 与一般块深度情况相比,他们揭示了 Depth-μP 在块深度 1 情况下的可行性。 CZ 还在论文的最终版本中进行了威震天实验。 SH 从项目一开始就致力于头脑风暴,编写了线性网络的热身部分,形式化了特征多样性指数的概念,并帮助将实验结果转化为图表和可视化。

参考

  • Allen-Zhu et al. [2019] Z. Allen-Zhu, Y. Li, and Z. Song. A convergence theory for deep learning via over-parameterization, 2019.
  • Chizat and Bach [2018] L. Chizat and F. Bach. On the global convergence of gradient descent for over-parameterized models using optimal transport, 2018.
  • Chizat et al. [2020] L. Chizat, E. Oyallon, and F. Bach. On lazy training in differentiable programming, 2020.
  • Hanin and Rolnick [2018] B. Hanin and D. Rolnick. How to start training: The effect of initialization and architecture, 2018.
  • Hayou [2023] S. Hayou. On the infinite-depth limit of finite-width neural networks. Transactions on Machine Learning Research, 2023.
  • Hayou and Yang [2023] S. Hayou and G. Yang. Width and depth limits commute in residual networks. In A. Krause, E. Brunskill, K. Cho, B. Engelhardt, S. Sabato, and J. Scarlett, editors, Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pages 12700–12723. PMLR, 23–29 Jul 2023. URL https://proceedings.mlr.press/v202/hayou23a.html.
  • Hayou et al. [2021] S. Hayou, E. Clerico, B. He, G. Deligiannidis, A. Doucet, and J. Rousseau. Stable resnet. In A. Banerjee and K. Fukumizu, editors, Proceedings of The 24th International Conference on Artificial Intelligence and Statistics, volume 130 of Proceedings of Machine Learning Research, pages 1324–1332. PMLR, 13–15 Apr 2021. URL https://proceedings.mlr.press/v130/hayou21a.html.
  • He et al. [2016a] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016a.
  • He et al. [2016b] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14, pages 630–645. Springer, 2016b.
  • Jacot et al. [2020] A. Jacot, F. Gabriel, and C. Hongler. Neural tangent kernel: Convergence and generalization in neural networks, 2020.
  • Jelassi et al. [2023] S. Jelassi, B. Hanin, Z. Ji, S. J. Reddi, S. Bhojanapalli, and S. Kumar. Depth dependence of μp learning rates in relu mlps, 2023.
  • Liu et al. [2020] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han. Understanding the difficulty of training transformers. arXiv preprint arXiv:2004.08249, 2020.
  • Noci et al. [2022] L. Noci, S. Anagnostidis, L. Biggio, A. Orvieto, S. P. Singh, and A. Lucchi. Signal propagation in transformers: Theoretical perspectives and the role of rank collapse, 2022.
  • Noci et al. [2023] L. Noci, C. Li, M. B. Li, B. He, T. Hofmann, C. Maddison, and D. M. Roy. The shaped transformer: Attention models in the infinite depth-and-width limit, 2023.
  • OpenAI [2023] OpenAI. Gpt-4 technical report, 2023.
  • Shoeybi et al. [2019] M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism. arXiv preprint arXiv:1909.08053, 2019.
  • Silver et al. [2016] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. P. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis. Mastering the game of go with deep neural networks and tree search. Nature, 529:484–489, 2016.
  • Srivastava et al. [2015] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks, 2015.
  • Vaswani et al. [2017] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention is all you need, 2017.
  • Yang [2020a] G. Yang. Scaling limits of wide neural networks with weight sharing: Gaussian process behavior, gradient independence, and neural tangent kernel derivation, 2020a.
  • Yang [2020b] G. Yang. Tensor programs ii: Neural tangent kernel for any architecture, 2020b.
  • Yang [2021] G. Yang. Tensor programs i: Wide feedforward or recurrent neural networks of any architecture are gaussian processes, 2021.
  • Yang and Hu [2021] G. Yang and E. J. Hu. Tensor programs iv: Feature learning in infinite-width neural networks. In International Conference on Machine Learning, pages 11727–11737. PMLR, 2021.
  • Yang and Littwin [2023] G. Yang and E. Littwin. Tensor programs ivb: Adaptive optimization in the infinite-width limit, 2023.
  • Yang et al. [2022] G. Yang, E. J. Hu, I. Babuschkin, S. Sidor, X. Liu, D. Farhi, N. Ryder, J. Pachocki, W. Chen, and J. Gao. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022.
  • Zhang et al. [2019] H. Zhang, Y. N. Dauphin, and T. Ma. Fixup initialization: Residual learning without normalization, 2019.
  • Zhang et al. [2023] H. Zhang, D. Yu, M. Yi, W. Chen, and T.-Y. Liu. Stabilize deep resnet with a sharp scaling factor τ, 2023.
  • Zou et al. [2018] D. Zou, Y. Cao, D. Zhou, and Q. Gu. Stochastic gradient descent optimizes over-parameterized deep relu networks, 2018.

附录A符号

本节介绍 [24] 中的新 TP 表示法。 在本文中我们只需要内积和外积的定义。

平均 n

xn时,我们总是使用希腊下标α,β,[n]来索引其条目。 那么xαα表示其平均条目。 此表示法仅用于对 n 维度进行平均,但不适用于恒定维度。

A.1 张量程序 Ansatz:通过随机变量表示向量

从张量程序框架[25]中,我们知道随着宽度变大,(预)激活向量的条目及其梯度将在初始化和训练时变得大致独立同分布。 因此,任何此类向量的行为都可以通过反映其条目分布的随机变量来跟踪。 虽然我们称之为“张量程序 Ansatz”,但它是一种完全严格的微积分。

A.1.1 Ket 表示法

具体来说,如果 xn 是这样一个向量,那么我们为这样一个随机变量写 ⫿x (称为 ket),这样 x 的条目看起来像来自 ⫿x 的 iid 样本。对于任何两个这样的向量 x,yn,每个 α(xα,yα)2 将看起来像iid 从随机向量 (⫿x,⫿y) 中采样,例如 limnxyn=𝔼⫿x⫿y,我们将其简洁地写为 x⫿y 这里 x⫿ 被称为 bra,被解释为一种对 ⫿x 的“转置”。 在我们的约定中,⫿x 始终是独立于 n 的随机变量,x 始终具有 Θ(1) 典型条目大小。262626i.e., x2/n=Θ(1) as n

该表示法可以推广到 𝒙n×k,𝒚n×j 的情况。 在这种情况下,我们可以将 𝒙⫿𝒚 视为由 (xa⫿yb)1ak1bj 给出的 k×j 矩阵。

因为我们经常需要将 ket 与对角矩阵相乘,所以我们引入一个简写:

⫿𝒙𝝌=⫿𝒙Diag(𝝌), (7)

如果 𝒙n×k 并且 𝝌k 维向量。

A.1.2 外积

同样,如果 𝒙𝒚 都具有形状 n×k,则表达式

⫿𝒙𝒚⫿ represents the limit of 𝒙𝒚n×n.

更正式地说,⫿𝒙𝒚⫿ 被定义为一个运算符,它接受 ket ⫿𝒛j 并返回 ket

(⫿𝒙𝒚⫿)⫿𝒛=⫿𝒙(𝒚⫿𝒛)j

即,它返回随机向量 ⫿𝒙k 乘以右侧的确定性矩阵 𝒚⫿𝒛k×j 这对应于𝒙𝒚𝒛/n的限制。 同样,⫿𝒙𝒚⫿ 通过以下方式作用于胸罩 𝒘⫿j

𝒘⫿(⫿𝒙𝒚⫿)=(𝒘⫿𝒙)𝒚⫿j.

对应于1n𝒘𝒙𝒚的限制。 ⫿𝒙𝒚⫿ 的这个定义使得表达式

⫿𝒙𝒚⫿𝒛,𝒘⫿𝒙𝒚⫿,𝒘⫿𝒙𝒚⫿𝒛

明确(因为任何对操作进行排序的方式都会给出相同的答案)。

Remark A.1 (潜在混乱)

人们不应该⫿𝒙𝒚⫿解释为标量随机变量⫿𝒙⫿𝒚=i=1k⫿xi⫿yi,它会作用于ket ⫿𝒛以产生(𝒙⫿𝒚⫿)⫿𝒛=𝔼(⫿𝒙⫿𝒚)⫿𝒛,这是确定性的。 另一方面,⫿𝒙𝒚⫿𝒛 始终是 ⫿𝒙 的线性组合,通常是非确定性随机变量。 特别是,⫿𝒙⫿𝒚之间的任何相关性并不直接在它们的外积⫿𝒙𝒚⫿中发挥作用:我们总是有⫿𝒙𝒚⫿𝒛=⫿𝒙𝒚⫿1⫿𝒛1,其中 (⫿𝒚1,⫿𝒛1) 是独立于 ⫿𝒙(⫿𝒚,⫿𝒛) 的 iid 副本。

对角插入的外积

最后,如果 𝝌k 是确定性的,那么(与 eq. 7 一致)我们定义 ⫿𝒙𝝌𝒚⫿ 作为作用于 kets ⫿𝒛j 的运算符

(⫿𝒙𝒚⫿)𝝌⫿𝒛=⫿𝒙𝒚⫿𝒛𝝌=⫿𝒙Diag(𝝌)(𝒚⫿𝒛)j.

从道德上讲,⫿𝒙𝝌𝒚⫿只是⫿𝒙Diag(𝝌)𝒚⫿的一种更短的写法,代表了𝒙Diag(𝝌)𝒚的极限。 特别是⫿𝒙𝟏𝒚⫿=⫿𝒙𝒚⫿

A.1.3 非线性外积

如果 xyn×n 是两个向量 xnyn 的(线性)外积,则 ϕ(xy) 是非线性 ϕ:xy,是一种非线性外积。传递到 ket 表示法,一般我们将 ϕ(⫿𝒙𝒚⫿) 定义为运算符作用于 ket 为

ϕ(⫿𝒙𝒚⫿)⫿𝒛=def𝔼1ϕ(i=1k⫿xi⫿yi1)⫿𝒛1

其中 (⫿y11,,⫿yk1,⫿𝒛1) 是独立于 ⫿𝒙(⫿y1,,⫿yk,⫿𝒛) 的 iid 副本,并且期望仅针对前者。 这就像在有限的 n 情况下,

ϕ(𝒙𝒚)𝒛/n=ϕ(i=1kxiyi)𝒛/n.

此外,如果⫿𝒘j,⫿𝒛k,那么

𝒘⫿ϕ(⫿𝒙𝒚⫿)⫿𝒛 =𝒘⫿ϕ(⫿𝒙𝒚⫿1)⫿𝒛1j×k
=𝔼ϕ(i=1k⫿xi⫿yi1)(⫿𝒘⫿𝒛1)

其中 表示向量的外积,并且期望涵盖所有内容。

更一般地,如果 ϕ:t,则 ϕ(⫿𝒙1𝒚1⫿,,⫿𝒙t𝒚t⫿) 是一个将 kets 带到 kets 的运算符,定义为

ϕ(⫿𝒙1𝒚1⫿,,⫿𝒙t𝒚t⫿)⫿𝒛=def𝔼1ϕ(i=1k⫿x1i⫿y1i1,,i=1k⫿xti⫿yti1)⫿𝒛1
Remark A.2 (潜在混乱)

注意,ϕ(⫿𝒙𝒚⫿)并不是算子连续函数演算中算子⫿𝒙𝒚⫿ϕ下的镜像,而是ϕ 例如,如果 ϕ(t)=t2,则 ϕ(⫿xy⫿) 不是 ⫿xy⫿xy⫿,后者通常是“对运算符求平方”的含义,但是而是⫿x2y⫿2=⫿xxyy⫿

A.1.4 与之前的Z表示法的比较

对于熟悉张量程序论文的读者来说,这种新的“bra-ket”表示法(又名狄拉克表示法)与旧的Z表示法相关

⫿x=Zx,x⫿y=𝔼ZxZy.

新符号的期望内积的简洁性应该已经很明显了。 此外,旧的表示法与多向量不太兼容,而 ⫿x 清楚地表明 表示恒定维度边。 因此,(非线性)外积很难用它来表达,特别是当它与随机变量的收缩需要显式期望符号 𝔼 时。

附录 B 带 Bra-ket 表示法的无限宽度限制

和之前一样,当程序的宽度 n 趋于无穷大时,我们可以通过随机变量的演算来推断程序的行为。 下面我们通过新的 ket 表示法而不是之前的 Z 表示法来定义它们。

凯特建筑。

我们为程序中的每个向量 x 和每个标量 θ 递归定义随机变量 ⫿x(称为 ket)和确定性数 θ̊ 对于程序中的向量Wx,我们还定义了随机变量⫿Wx^⫿Wx˙(称为hat-ket分别为 dot-ket),使得 ⫿Wx=⫿Wx^+⫿Wx˙ 这些与旧 TP 表示法 [25] 中的 Z^Z˙ 相同,并且满足

  • 帽子

    所有帽子都是具有零均值和协方差的联合高斯分布272727eq. 8中,𝕀(W=U)为当且仅当 WU 是相同的矩阵(如程序中的符号)时,确定性数字为 1,否则为 0。 不应解释为当 WU 取相同值时恰好为 1 的随机变量。

    Cov(⫿Wx^,⫿Uy^) =𝕀(W=U)x⫿y (8)
  • 每个 dot-ket 都是之前 ket 的线性组合,由以下等式表示

    ⫿Wx˙=defy𝒙⫿y𝔼⫿x⫿Wy^ (9)

eq. 9[25, Zdot] 中的方程相同,但在胸罩中的表述更加简洁-ket 表示法:

[25, Zdot],Z˙Wx =y𝒙Zy𝔼ZxZ^Wy.

Yang 和 Littwin [24] 中的 ⫿Wx˙ 有一个替代概念,即

⫿Wx˙=⫿𝒙ˇW𝒙⫿x.

由于我们引入了操作符视图,这样写起来就更方便了。

我们可以将 ket ⫿Wx 视为运算符对 ket ⫿x 执行操作的结果。

Definition B.1.

W 为张量程序中的初始矩阵。 我们将 ⫿W⫿,⫿^W⫿^,⫿˙W⫿˙ 定义为 ket 上的线性运算符 282828 为了严格起见,我们需要指定ket的“希尔伯特空间”。 这有点迂腐,对本文的要点并不重要,但希尔伯特空间可以构造如下:令 σ(π) 为由 kets 生成的 σ 代数程序π Σ(π)=defππσ(π)σ(π) 在扩展 π 的所有程序 π 上的并集(更准确地说,直接限制)。 那么所讨论的希尔伯特空间就是我们程序的 Σ 上的随机变量的 L2 空间。 其行为由

⫿^W⫿^x =def⫿Wx^
⫿˙W⫿˙x =def⫿Wx˙
⫿W⫿x =def⫿^W⫿^x+⫿˙W⫿˙x.

任何等于的线性运算符 ⫿W⫿ 对于某些初始矩阵W称为初始运算符

我们还定义了运算符之间的伴随关系:

⫿^W⫿^ =⫿˙W⫿˙,
⫿˙W⫿˙ =⫿^W⫿^,
⫿W⫿ =⫿W⫿.
参数更新

在SGD情况下,Wl的参数更新很简单。 利用运算符符号和外积符号,我们可以写出

⫿Wt+1l⫿=⫿Wtl⫿η⫿δ~htlχtxtl1⫿.

在这项工作中,Δ表示一步的变化,即

⫿ΔWt+1l⫿=η⫿δ~htlχtxtl1⫿;

Δ¯ 表示总变化,即

⫿Δ¯Wtl⫿=τ=0t1η⫿δ~hτlχτxτl1⫿,

我们简洁地写成⫿Δ¯Wtl⫿=η⫿δ~𝒉<tl𝝌𝒙<tl1⫿ (与Yang和Littwin[24]相比,ΔΔ¯分别由δΔ改变因为我们想使用 δ 进行渐变,而不是 d,后者现在用于深度微分)。

注意一般情况下,

⫿ΔWt+1l⫿=η⫿δ~𝒉tl𝝌t𝒙tl1⫿¯

在哪里

⫿δ~𝒉tl𝝌t𝒙tl1⫿¯=defQtl(⫿δ~h0lx0l1⫿,,⫿δ~htlχ0xtl1⫿)χt.

所以

⫿Δ¯Wtl⫿=ητ=0t1⫿δ~𝒉τl𝝌τ𝒙τl1⫿¯. (10)

为了方便起见,在本文的其余部分中,我们编写 ⫿Δ¯Wtl⫿=η⫿δ~𝒉<tl𝝌𝒙<tl1⫿ eq. 10 的推广遵循 Yang 和 Littwin [24]

附录C线性情况的详细信息

C.1 4.2

这里我们提供了4.2的证明草图,形式证明是由无限深度限制中ΓC的存在来暗示的。

证明草图。

这些声明可以通过对 tl 进行归纳来推理。让我们以⫿xtl为例,因为⫿δ~xtl1⫿xtl对称。 通过扩展⫿xtl的定义,我们有

⫿xtl=⫿xtl1+1L⫿W0lxtl1^+1Ls=1t1⫿δ~xsl(⫿xtl1⫿W0lδ~xsl^1Lxsl1⫿xtl1).

通过归纳法注意到,xsl1⫿xtl1=𝒪(1)xtl1⫿W0lδ~xsl^=𝒪(1/L),所以

⫿xtl =⫿xtl1+1L⫿W0lxtl1^+𝒪(1L)s=1t1⫿δ~xsl
=ξt⫿U+m=1l1L⫿W0mxtm1^+𝒪(1L)m=1ls=1t1⫿δ~xsm.

然后通过展开 ⫿δ~xsm 并注意通过归纳,s<t⫿δ~xsm⫿W0mxsm1^=𝒪(1L)⫿δ~xsm⫿W0mδ~xsm^=𝒪(1L)⫿δ~xsm⫿U=𝒪(1)⫿δ~xsm⫿nV=𝒪(1),我们有

⫿xtl⫿W0mxsm1^=𝒪(1L),⫿xtl⫿W0mδ~xsm^=𝒪(1L),⫿xtl⫿U=𝒪(1),⫿xtl⫿nV=𝒪(1).

同样通过展开,⫿y{⫿xsm,⫿δ~xsm}

y⫿xtl= mst⫿xtl⫿W0mxtm1^⫿y⫿W0mxsm1^xtm1⫿xsm1
+mst⫿xtl⫿W0mδ~xtm^⫿y⫿W0mδ~xsm^δ~xtm⫿δ~xsm
+⫿xtl⫿U⫿y⫿U+⫿xtl⫿nV⫿y⫿nV
= 𝒪(1).

C.2 ΓC的形式化递归公式

以同样的方式对⫿xtly⫿xtl进行展开,我们正式推导出下面ΓC的递归公式。

Lemma C.1 (ΓC的有限深度递归公式)

Γ 可以递归计算如下:

对于t=0,,T1

  • q(0,1],Γt,1,0,q(0,q)=ξt,

  • 对于 l=1,,Lrtp(l1L,lL]q(0,1]b{0,1}、0>

    Ct,s,0(p)= t=1ts=1sb{0,1}01Γt,t,0,b(l1L,q)Ct,s,b(q)Γs,s,0,b(l1L,q)dq;
    Γt,r,0,b(p,q)= Γt,r,0,b(l1L,q)+𝕀[(t=r)(b=0)(l=Lq)]
    +1Ls=0t1Γs,r,1,b(lL,q)(Γt,s,0,1(l1L,lL)Ct,s,0(lL)).
  • f̊t=Γt,1,0,1(1,1),

  • χ̊t=t(f̊t),

  • q(0,1],Γt,1,1,1(1,q)=χ̊t,

  • 对于 l=L,,1rtp(l2L,l1L]q(0,1]b{0,1}、0>

    Ct,s,1(p+1L)= t=1ts=1sb{0,1}01Γt,t,1,b(l/L,q)Ct,s,b(q)Γs,s,1,b(l/L,q)dq;
    Γt,r,1,b(p,q)= Γt,r,1,b(lL,q)+𝕀[(t=r)(b=1)(l=Lq)]
    +1Ls=0t1Γs,r,0,b(l1L,q)(Γt,s,1,0(lL,lL)Ct,s,1(lL)).

程序 1 的证明很简单。 ΓC 的递归性质产生以下无限深度行为。

Proposition C.2 (ΓC的无限深度限制)

在极限L中,我们有p[0,1],q(0,1],b{0,1}

Γt,1,0,0(0,q)=ξt;
Γt,r,0,b(p,q)=𝕀[(t=r)(b=0)(pq)]+0ps=0t1Γs,r,1,b(p,q)(Γt,s,0,1(p,p)Ct,s,0(p))dp;
f̊t=Γt,1,0,1(1,1);
χ̊t=t(f̊t);
Γt,1,1,1(1,q)=χ̊t;
Γt,r,1,b(p,q)=𝕀[(t=r)(b=1)(pq)]+p1s=0t1Γs,r,0,b(p,q)(Γt,s,1,0(p,p)Ct,s,1(p))dp;
Ct,s,a(p)=t=1ts=1sb{0,1}01Γt,t,a,b(p,q)Ct,s,b(q)Γs,s,a,b(p,q)dq.

C.3 L=2kΓC收敛

在本节中,我们证明当LΓC将收敛。 为了方便起见,我们只考虑L=2k为某个整数k时的情况。为了区分不同L对应的ΓC,我们添加深度作为上标,即ΓLCL.

Theorem C.3.

tT,s<t,a{0,1},b{0,1}p[0,1],q(0,1]

  • {Γt,s,a,b2k(p,q)}k是柯西序列,

  • {Ct,s,a2k(p)}k 是柯西序列。

证明是通过t 归纳得出的。如果任何 s<t 都得到满足,我们将在 t>0 上证明以下声明 (A) (B) (C) (D)。对于t=0,(A) (B) (C) (D) 是微不足道的。

关于s<t的假设

假设 c>1 使得 L>LL=2k 对于 ks<tr<s

  1. (A)

    p{0,1L,,1},q(0,1]

    |Γs,r,a,bL/2(p,q)Γs,r,a,bL(p,q)|c/L,|Cs,r,aL/2(p,q)Cs,r,aL(p,q)|c/L.
  2. (二)

    |Γs,r,a,bL(p,q)|c,|Cs,r,aL(p)|c

  3. (C)

    Cs,r,aL(p)c-Lipschitz w.r.t。 p,Γs,r,a,bL(p,q)c-Lipschitz w.r.t。 p

  4. (四)

    |Γs,r,0,1L(p1L,p+1L)Γs,r,0,1L(p1L,p)|c/L,|Γs,r,1,0L(p,p)Γs,r,1,0L(p,p1L)|c/L

评论

(A) 表明{Γs,r,a,b2k}k{Cs,r,a2k}k 收敛。 我们只关心 r<s,因为 Cs,s,aL 永远不会被使用,并且 Γs,s,a,bL 是已知的:对于 p{0,1L,,1}

Γs,s,a,bL(p,q)=𝕀[(a=0)(b=0)(pq)]+𝕀[(a=1)(b=1)(p+1/Lq)].
t 步的证明(前向传播)

在下面的小节中,我们将归纳证明所有 L>LL=2k 的升序,以及 p{0,1/L,,1} 的升序 s<t

  1. (D0)

    |Γt,s,0,1L(p,p+2L)Γt,s,0,1L(p,p+1L)|c2exp(c1p)/L

  2. (C0)

    对于s<t,|Γt,s,0,bL(p,q)Γt,s,0,bL(p1L,q)|tcc2exp(c1(p1L))/L

  3. (B0)

    |Γt,s,0,bL(p,q)|c2exp(c1(p12L))

  4. (A0)

    |Γt,s,0,bL/2(p,q)Γt,s,0,bL(p,q)|c3c2exp(c1(p12L))/L

  5. (C1)

    |Ct,s,0L(p+1L)Ct,s,0L(p)|c4c2exp(c1(p1L))/L

  6. (B1)

    |Ct,s,0L(p+1L)|c2exp(c1p);

  7. (A1)

    |Ct, s0>,1>02>L4>/5> 26>3>​7>(9>p1>+2>14>L5>3>0>)6>8>−7>C0>t2>,3>s4>,5>06>1>L7>9>​8>(0> p2>+3>15>L6>4>1>)7>9>8>|8>≤9>c3> 54>2>​5>c7>28>6>​9>exp1>⁡2>(4>c7>1<​​/t68> 6>​9>p0>5>)1>3>0>1>/2>L3>0>,4>

其中c2=max{ξt2,|ξt|}exp(c1/2L)c3=3ctc4=4t(t+1)c2+2tcc5=c4+1c1=c3t(4ct+2c4+29)+tc(3c4+14)+c(2c4+2c)

t 步的证明(向后传递)

通过对 p 的降序进行归纳,类似的界限也适用于 Γt,s,1,bCt,s,1

结论

结合时间 t 时的后向传递和前向传递,可以看出 (A)(B)(C)(D) 在 s=t 时也成立,且 c 更大(但恒定)。因此,通过对训练步数的归纳,(A)(B)(C)(D) 对任何常数 s 都成立。

前向传递中的 C.3.1 Γt,s,0,bL(p,q)(D0、C0、B0、A0 的证明)

我们首先考虑

Γt,r,0,bL(p,q)= Γt,r,0,bL(p1L,q)+𝕀[(t=r)(b=0)(Lp=Lq)]
+1Ls=0t1Γs,r,1,bL(p,q)(Γt,s,0,1L(p1L,p)Ct,s,0L(p)).
(D0) Γt,s,0,1L(p,p+2L)Γt,s,0,1L(p,p+1L) 之间的差异

假设p1/L(p=0是微不足道的),让q=p+1/L,q=p+2/L,注意Γs,s,1,bL(p,q)=Γs,s,1,bL(p,q)p+1/Lqq以来,所以对于r<t,

|Γt,r,0,bL(p,q)Γt,r,0,bL(p,q)|
|Γt,r,0,bL(p1L,q)Γt,r,0,bL(p1L,q)|
+1Ls=0t1|Γs,r,1,bL(p,q)Γs,r,1,bL(p,q)||Γt,s,0,1L(p1L,p)Ct,s,0L(p)|
c2exp(c1(p1L))/L+1Ltc/L2c2exp(c1(p1L))
= (1+2ct/L)c2exp(c1(p1L))/Lc2exp(c1p)/L,

c12ct

(C0) 利普希茨 w.r.t. p

对于r<t

|Γt,r,0,bL(p,q)Γt,r,0,bL(p1L,q)|
= |1Ls=0t1Γs,r,1,bL(p,q)(Γt,s,0,1L(p1L,p)Ct,s,0L(p))|
1Ls=0t1c(c2exp(c1(p1L))+c2exp(c1(p1L)))
= ctc2exp(c1(p1L))/L.
(B0) 有界

再次假设 p1/L (p=0 是微不足道的,因为 c2|ξt|exp(c1/2L)),因为 |Γt,r,0,bL(p1L,q)|c2exp(c1(p1L)),我们可以绑定 |Γt,r,0,bL(p,q)|

|Γt,r,0,bL(p,q)| c2exp(c1(p1L))+ctc2exp(c1(p1L))/L
= c2exp(c1(p1L))(1+ct/L)
c2exp(c1(p12L)),

只要c12ct

(A0) LL/2 之间的差异有界

p=0 时,这是微不足道的。 p=1/L 时,Lipschitz w.r.t 也是微不足道的。 p,结果

|Γt,r,0,bL/2(p,q)Γt,r,0,bL(p,q)|3ctc2/Lc3c2exp(c1/2L)/L.

p2/L时,由于

Γt,r,0,bL/2(p,q)=Γt,r,0,bL/2(p2L,q)+2Ls=0t1Γs,r,1,bL/2(p,q)(Γt,s,0,1L/2(p2L,p)Ct,s,0L/2(p)),

我们将其与基于前两个步骤扩展的 Γt,r,0,bL(p,q) 进行比较

Γt,r,0,bL(p,q)= Γt,r,0,bL(p2L,q)+1Ls=0t1Γs,r,1,bL(p,q)(Γt,s,0,1L(p1L,p)Ct,s,0L(p))
+1Ls=0t1Γs,r,1,bL(p1L,q)(Γt,s,0,1L(p2L,p1L)Ct,s,0L(p1L)).

为了桥接上述两者,即匹配 ΓC 的输入,我们需要一个中间项

Γ~t,r,0,bL(p,q)= Γt,r,0,bL(p2L,q)+2Ls=0t1Γs,r,1,bL(p,q)(Γt,s,0,1L(p2L,p)Ct,s,0L(p)).

现在我们可以分别绑定|Γt,r,0,bL(p,q)Γ~t,r,0,bL(p,q)||Γ~t,r,0,bL(p,q)Γt,r,0,bL/2(p,q)|,它们加起来就是|Γt,r,0,bL(p,q)Γt,r,0,bL/2(p,q)|的绑定。

|Γt,r,0,bL(p,q)Γ~t,r,0,bL(p,q)|
1Ls=0t1|Γs,r,1,bL(p,q)||Γt,s,0,1L(p1L,p)Γt,s,0,1L(p2L,p)|
+1Ls=0t1|Γs,r,1,bL(p1L,q)(Γt,s,0,1L(p2L,p1L)Ct,s,0L(p1L))
Γs,r,1,bL(p,q)(Γt,s,0,1L(p2L,p)Ct,s,0L(p))|
1Lctctc2exp(c1(p2L))/L+1L2tc/Lc2exp(c1(p2L))
+1Lctc2exp(c1(p2L))/L+1Lctc4c2exp(c1(p2L))/L
= c2t2+3ct+c4ctL2c2exp(c1(p2L)).

|Γt,r,0,bL/2(p,q)Γ~t,r,0,bL(p,q)|
|Γt,r,0,bL/2(p2L,q)Γt,r,0,bL(p2L,q)|
+1Ls=0t1c|Γt,s,0,1L/2(p2L,p)Γt,s,0,1L(p2L,p)Ct,s,0L/2(p)+Ct,s,0L(p)|
+1Ls=0t1cL(|Γt,s,0,1L(p2L,p)|+|Ct,s,0L(p)|)
1L(c3c2exp(c1(p1L))+ct(c3+c5)c2exp(c1(p1L))/L+2tcLc2exp(c1(p1L)))
c3+ct(c3+c5+2)/LLc2exp(c1(p1L)).

总而言之,如c12(c3+c5+ct+c4+5)3

|Γt,r,0,bL/2(p,q)Γt,r,0,bL(p,q)| c3+ct(c3+c5+ct+c4+5)/LLc2exp(c1(p1L))
c2exp(c1(p12L))/L.

前向传播中的 C.3.2 Ct,s,0(p+1L) (C1、B1、A1 的证明)

现在考虑Ct,s,0L 通过扩展

Ct,s,0L(p+1L)=t=1ts=1sb{0,1}01Γt,t,0,bL(p,q)Ct,s,bL(q)Γs,s,0,bL(p,q)dq,

我们将有

Ct,s,0L(p+1L)= t=1t1s=1sb{0,1}01Γt,t,0,bL(p,q)Ct,s,bL(q)Γs,s,0,bL(p,q)dq
+s=0s0pCt,s,0L(q)Γs,s,0,0L(p,q)dq.
(C1) 利普希茨

由于 Ct,s,bLΓs,s,0,bL 有界且 Lipschitz,

|Ct,s,0L(p+1L)Ct,s,0L(p)|
t=1t1s=1sb{0,1}01|Γt,t,0,bL(p,q)Γt,t,0,bL(p1L,q)|c2dq
+t=1t1s=1sb{0,1}01|Γt,t,0,bL(p1L,q)|ccLdq
+s=0s1L|Ct,s,0L(p)Γs,s,0,0L(p,p)|
+s=0s0p1L|Ct,s,0L(q)|cLdq.
1/L(2t(s+1)ctc2exp(c1(p1L))c2+2t(s+1)c2exp(c1(p1L))c2
+sc2exp(c1(p1L))c+sc2exp(c1(p1L))c)
= (4t(s+1)c2+2sc)/Lc2exp(c1(p1L))
c4c2exp(c1(p1L))/L.
(B1) 有界

|Ct,s,0L(p)|c2exp(c1(p1L))开始,我们将Ct,s,0L(p+1L)绑定为:

|Ct,s,0L(p+1L)|c2exp(c1(p1L))(1+c4/L)c2exp(c1p),

只要c1c4

(A1) LL/2 之间的差异有界

很容易看出对于p=0

Ct,s,0L(p+1L)Ct,s,0L/2(p+1L)=0,

我们将证明对于p{2/L,4/L,,1}

|Ct,s,0L(p+1L)Ct,s,0L/2(p+1L)|c2exp(c1p)/L.

然后通过(C1),对于p{1/L,3/L,,11/L}

|Ct,s,0L(p+1L)Ct,s,0L/2(p+1L)| c2exp(c1(p1L))/L+c4c2exp(c1(p1L))/L
(c4+1)c2exp(c1p)/L
= c5c2exp(c1p)/L.

假设p{2/L,4/L,,1},我们比较Ct,s,0L(p+1L)Ct,s,0L(p1L)Ct,s,0L/2(p+1L)Ct,s,0L/2(p1L) 直观上来说,两者都是𝒪(1/L),他们的区别是𝒪(1/L2) 具体来说,两者都可以写成四个部分:

Ct,s,0L(p+1L)Ct,s,0L(p1L)
= t=1t1s=1sb{0,1}01(Γt,t,0,bL(p,q)Γt,t,0,bL(p2L,q))Ct,s,bL(q)Γs,s,0,bL(p,q)dq (1L)
+t=1t1s=1sb{0,1}01Γt,t,0,bL(p2L,q)Ct,s,bL(q)(Γs,s,0,bL(p,q)Γs,s,0,bL(p2L,q))dq (2L)
+s=0sp2LpCt,s,0L(q)Γs,s,0,0L(p,q)dq (3L)
+s=0s0p2LCt,s,0L(q)(Γs,s,0,0L(p,q)Γs,s,0,0L(p2L,q))dq (4L)

Ct,s,0L/2(p+1L)Ct,s,0L/2(p1L)=1L/2+2L/2+3L/2+4L/2,其中 iL/2 的定义方式与 iL 相同,但使用 CL/2ΓL/2 而不是 CLΓL 接下来我们一一绑定|iLiL/2|

  1. 1.

    |iLiL/2| 中唯一难以绑定的部分是

    |Γt,t,0,bL(p,q)Γt,t,0,bL(p2L,q)(Γt,t,0,bL/2(p,q)Γt,t,0,bL/2(p2L,q))|.

    通过与(A0)几乎相同的证明,

    |Γt,t,0,bL(p,q)Γt,t,0,bL(p2L,q)(Γt,t,0,bL/2(p,q)Γt,t,0,bL/2(p2L,q))|
    ct(c3+c5+ct+c4+5)L2c2exp(c1(p1L)).

    然后我们有

    |1L1L/2|/(2t(s+1))
    ct(c3+c5+ct+c4+5)L2c2exp(c1(p1L))cc
    +4ctc2exp(c1(p1L))/Lc/Lc
    +4ctc2exp(c1(p1L))/Lcc/L
    c3t(c3+c5+ct+c4+13)L2c2exp(c1(p1L))
  2. 2.

    边界 |2L2L/2||1L1L/2| 类似,我们首先在其中绑定

    |Γs,s,0,bL(p,q)Γs,s,0,bL(p2L,q)(Γs,s,0,bL/2(p,q)Γs,s,0,bL/2(p2L,q))|9c2t/L2.

    然后我们有

    |2L2L/2|/(2t(s+1))
    c3c2exp(c1(p2L))/Lc2c/L
    +c2exp(c1(p2L))c/L2c/L
    +c2exp(c1(p2L))c9c2t/L2
    c2(2c3+2+9ct)L2c2exp(c1(p2L)).
  3. 3.

    对于|3L3L/2|,我们首先简化

    3L/2=2Ls=0sCt,s,0L/2(p)Γs,s,0,0L/2(p,p),

    3L=1Ls=0sCt,s,0L(p)Γs,s,0,0L(p,p)+Ct,s,0L(p1L)Γs,s,0,0L(p,p1L).

    我们再次引入一个中间术语

    ~3L=2Ls=0sCt,s,0L(p)Γs,s,0,0L(p,p).

    然后我们就可以绑定了

    |3L3L/2|
    |3L~3L|+|~3L3L/2|
    tL(c4c2exp(c1(p2L))/Lc+c2exp(c1(p2L))c/L)
    +2tL(c5c2exp(c1(p1L))/Lc+c2exp(c1(p1L))c/L)
    tc(c4+1+2c5+2)L2c2exp(c1(p1L)).
  4. 4.

    对于 |4L4L/2|,我们使用

    |Γs,s,0,bL(p,q)Γs,s,0,bL(p2L,q)(Γs,s,0,bL/2(p,q)Γs,s,0,bL/2(p2L,q))|9c2t/L2,

    用于|2L2L/2| 最后,

    |4L4L/2|/t
    c4c2exp(c1(p2L))/L2c/L
    +c2exp(c1(p2L))9c2t/L2
    c(2c4+9ct)L2c2exp(c1(p2L)).

总共,

|Ct,s,0L(p+1L)Ct,s,0L(p1L)Ct,s,0L/2(p+1L)+Ct,s,0L/2(p1L)|
c3t(4ct+2c4+14)+c2(2+15ct)+tc(3c4+5)+c(2c4+9ct)L2c2exp(c1(p1L))
= c3t(4ct+2c4+29)+tc(3c4+14)+c(2c4+2c)L2c2exp(c1(p1L)).

因此,从c1=c3t(4ct+2c4+29)+tc(3c4+14)+c(2c4+2c)开始,

|Ct,s,0L(p+1L)Ct,s,0L/2(p+1L)|
|Ct,s,0L(p1L)Ct,s,0L/2(p1L)|+c1/L2c2exp(c1(p1L))
(1+c1/L)c2exp(c1(p1L))/L
c2exp(c1p)/L.

附录D线性情况下深度参数化的分类

我们讨论了带有 SGD 训练的线性残差网络的分类结果,并在这个简化的设置中给出了严格的证明。 回想一下线性残差网络:

l[L],xl=xl1+aLαhl,

其中hl=Wlxl,Wl的有效学习率为ηn1Lγ 不失一般性,我们假设η=a=1

D.1初始化

在初始化时,我们有

⫿x0l=⫿x0l1+Lα⫿h0l,

在哪里

⫿h0l=⫿W0lx0l1=⫿W0lx0l1^.

由于 ⫿x0l1 独立于 ⫿W0lx0l1^,因此我们有

x0l⫿x0l=x0l1⫿x0l1+L2αh0l⫿h0l=x0l1⫿x0l1+L2αx0l1⫿x0l1=(1+L2α)x0l1⫿x0l1.

使用这个递归,我们可以写

x0l⫿x0l=(1+L2α)lx00⫿x00.

因此,x0L⫿x0L=Θ(1) 当且仅当α1/2,否则(1+L2α)LeL2α+1 会与较大的L 一起爆炸。

类似的论点代表 h0lf0 因此,我们证明了Claim 7.1

类似地,我们可以得到第一个反向传递的稳定性,即δ~x0l=Θ(1)对于α1/2 给定α1/2,我们还可以确定δ~h0的大小

δ~h0l=Θ(Lα),

这意味着

ΔW1l=Lγ+αδ~h0lx0l1.

D.2 第一步梯度更新后

现在我们看第二个前向传递,假设输入相同,即 ⫿x10=⫿x00,我们有

⫿x1l=⫿x1l1+Lα(⫿W0lx1l1^+⫿W0lx1l1˙+⫿ΔW1l⫿x1l1)

其中 ⫿ΔW1l⫿=Lγ⫿δ~h0l~x0l1⫿=Lγ⫿δ~x0lx0l1⫿⫿δ~h0l~=defLα⫿δ~h0l⫿δ~h0l 的规范化版本,它恰好等于 ⫿δ~x0l 通过⫿W0lx1l1^⫿W0lx1l1˙的定义,我们得到与Depth-μP情况类似的公式:

⫿x1l=⫿x1l1+Lα⫿W0lx1l1^+Lα⫿δ~x0l(⫿x1l1⫿W0lδ~x0l^Lγx0l1⫿x1l1).

现在我们写bl=Lγ⫿x1l1⫿W0lδ~x0l^cl=x0l1⫿x1l1,然后

⫿x1l=⫿x1l1+Lα⫿W0lx1l1^+Lαγ(bl+cl)⫿δ~x0l.

通过扩展 ⫿δ~x0l1=⫿δ~x0l+Lα⫿W0lδ~xtl^=⫿δ~x0L+m=lLLα⫿W0mδ~xtm^,我们有

⫿x1l= ⫿x1l1+Lα⫿W0lx1l1^+Lαγ(bl+cl)(⫿δ~x0L+m=l+1LLα⫿W0mδ~x0m^)
= ⫿x10+m=1lLα⫿W0mx1m1^+m=1lLαγ(bm+cm)⫿δ~x0L
+m=2LLαγl=1min{m1,l}(bl+cl)Lα⫿W0mδ~x0m^. (11)

请注意,eq. 11 中的四项是相互独立的。

现在很容易计算 cl,因为只有 eq. 11 中的前两项与 x0l

cl=cl1(1+L2α)=Θ(1)

α1/2 对于bl,我们有以下递归公式:

bl+1=L2αm=1l(bl+cl)=Θ(lL2α).
训练过程中稳定且不平凡。

最后,我们可以对 f̊1 进行推理(注意 f̊0=0,因此 Δf̊1=f̊1),它表明参数化在第一步中是否稳定292929我们需要ΔxΔh来保持稳定性,但它们与Δf̊1类似。,以及第一步的参数化是否重要:

f̊1=nV⫿x1L=m=1LLαγ(bm+cm)χ0=Θ(L1αγ).

因此,我们证明了 Claim 7.2 参数化在训练过程中是稳定的 iff α+γ1,并且是非平凡的 iff α+γ1

忠诚。

虽然线性情况下没有激活,但我们仍然证明 Claim 7.3 来启发一般情况的证明。

在初始化时,h0lx0l1具有相同的大小,因此,忠实性相当于稳定性,这意味着当且仅当α1/2时才会发生。

在训练过程中,我们可以用与 eq. 11 类似的方式扩展 ⫿h1l

⫿h1l=⫿W0lx1l1^+Lγ(bl+cl)(⫿δ~x0L+m=l+1LLα⫿W0mδ~x0m^)=Θ(1+Lγ).

因此,它是忠实的当且仅当γ0 它相当于 α1,因为我们有 α+γ=1

特征多样性指数。

为了简化分析,我们假设ϵL始终是整数。 我们首先展开x1l+ϵLx1l

⫿x1l+ϵL⫿x1l= m=l+1l+ϵLLα⫿W0mx1m1^+m=l+1l+ϵLLαγ(bm+cm)⫿δ~x0L
+m=2LLαγl=min{m1,l}+1min{m1,l+ϵL}(bl+cl)Lα⫿W0mδ~x0m^.

对于α+γ=1,很明显第一项是Θ(LαϵL)=Θ(ϵ1/2Lα+1/2),第二项的大小是Θ(ϵ),第三项的大小是Θ(LϵLα)=Θ(ϵLα+1/2) 因此,这里只有两种情况:如果α=1/2,则整体大小为Θ(ϵ1/2+ϵ)=Θ(ϵ1/2);如果α>1/2,第一项和第三项消失为L,因此整体大小为Θ(ϵ) 总之,我们证明了Claims7.47.5

分层线性化。

声明 7.6 在这种简化的设置中是微不足道的,因为分层线性化对于线性网络始终成立。 为了启发一般情况的证明,我们回顾一下⫿ΔW1l⫿x1l1=Lγcl⫿δ~x0l=Θ(Lγ),当γ>0时它比⫿W0lx1l1=Θ(1)小得多。 如果有激活函数,线性化会在h1l中带来o(Lγ)的误差,这意味着o(Lγα)=o(L1)x1l的误差。

D.3 超越一步

上面的论点一般是跟踪导数和协方差,换句话说,深度-μP 情况下的ΓC

现在我们推广引理 4.3,并获得以下对于ΓC的递归

Γt,r,0,b(lL,q)= Γt,r,0,b(l1L,q)+L1/2α𝕀[(t=r)(b=0)(l=Lq)]
+Lαγs=0t1Γs,r,1,b(lL,q)(Lγ1/2Γt,s,0,1(l1L,lL)Ct,s,0(lL)).
Γt,r,1,b(l1L,q)= Γt,r,1,b(lL,q)+L1/2α𝕀[(t=r)(b=1)(l=Lq)]
+Lαγs=0t1Γs,r,0,b(l1L,q)(Lγ1/2Γt,s,1,0(lL,lL)Ct,s,1(lL)).
Ct,s,a(p)=t=1ts=1sb{0,1}01Γt,t,a,b(l/L,q)Ct,s,b(q)Γs,s,a,b(l/L,q)dq,

其中如果 a=0 则为 l=Lp1,如果 a=1 则为 l=Lp

然后可以通过跟踪 ΓC 的顺序来推理所有声明。

使用 α+γ=1α1 区分参数化。

α+γ=1α1 的参数化都是重要的、稳定的和忠实的。 然而,α=1/2(Depth-μP)与α>1/2在跟踪Γ的难度和C。对于α>1/2,我们可以看到s0Ct,s,a=Θ(1)Γt,1,a,b=Θ(1)Γt,s,a,b=o(1) 在这种情况下,我们可以通过用 s0 忽略 Γt,s,a,b 来简化递归:

Γt,1,0,b(lL) Γt,1,0,b(l1L)1Ls=0t1Γs,1,1,b(lL)Ct,s,0(lL).
Γt,1,1,b(l1L) Γt,1,1,b(lL)1Ls=0t1Γs,1,0,b(l1L)Ct,s,1(lL).
Ct,s,a(p)b{0,1}Γt,1,a,b(l/L)Γs,1,a,b(l/L),

其中如果 a=0 则为 l=Lp1,如果 a=1 则为 l=Lp 注意 Γt,1,a,b(p,q) 被简化为仅依赖于 p 的函数,因为固定 pΓt,1,a,b(p,q) 是常数。

这种简化意味着任何 W0l 中的随机性不会对无限深度限制中的动力学产生影响 - 4.4α=1/2 的复杂函数积分为当 α>1/2 时简化为 ODE。 这种 ODE 动态还直接意味着 α>1/2 的特征多样性指数为 0。

附录 E 非线性深度 -μP 限制

当非线性 ϕ 并非微不足道时,由于 ϕϕ 的复杂构成,最终表示 xsL 的分布可能高度非高斯,这一点可以从已知的大宽度极限实例中推测出来。 对于有限深度 L 确实是这种情况。但事实上,当L时,{xsL}s0又变成了高斯过程!

限制 GP 的核可以用与线性情况类似的方式计算:

Definition E.1

递归地定义 ΓC

Γt,r,0,b(p,q) =𝕀[(t=r)(b=0)(pq)]
+0ps=0t1Vϕ[C]t,s,0(p)Γs,r,1,b(p,q)(Γt,s,0,1(p,p)Ct,s,0(p))dp;
Γt,r,1,b(p,q) =𝕀[(t=r)(b=1)(pq)]
+p1s=0t1Γs,r,0,b(p,q)(Vϕc|ϕ[C]t,s,0Γt,s,1,0(p,p)Vϕ[C]t,s,0(p)Ct,s,1(p))dp;
Ct,s,a(p) =b{0,1}01Γt,t,a,b(p,q)Vϕc[C]t,s,b(q)Γs,s,a,b(p,q)dq.

这里

Vϕc[C]t,s,b(p) =def𝔼MS(ϕ(z))MS(ϕ(y))
Vϕ[C]t,s,b(p) =def𝔼ϕ(z)ϕ(y)
Vϕc|ϕ[C]t,s,b(p) =def𝔼MS(ϕ(z))ϕ(y)

其中(z,y)𝒩(0,Cb(p)|{t,s})

然后

Claim E.1

对于足够平滑的非线性 ϕ,在 L 极限内,kets ⫿xsL,s=0,1,, 在分布上收敛为具有核的零均值高斯过程

xsL⫿xtL=Ct,s,1(1).

定义E.1中所定义。 因此,对于每个固定的神经元索引 α,集合 {xαsL}s0nL 的极限中,其分布趋近于核 Ct,s,1(1) 的零均值高斯过程。

我们将其视为一个主张,因为我们不想详细了解“足够平滑的非线性”在这里的含义,也不想给出证明。 相反,我们给出了直观的理由。

声明 E.1的启发式论证。

首先,在Depth-μP中,我们可以对每个块进行泰勒展开

⫿ϕ(Wtlxtl1)=ϕ(⫿W0lxtl1^)+ϕ(⫿W0lxtl1^)[⫿Δ¯Wtlxtl1+⫿W0lxtl1˙]+𝒪(L1).

因此,在考虑了L1/2块乘数之后,余项贡献了𝒪(L3/2) 对深度 l[0,L] 求和,根据 Gronwall 引理,所有层的余数总和为 𝒪(L1/2),因此我们可以忽略它们。 从这里开始,我们研究线性化块xMS(ϕ(W0lx)+ϕ(W0lx)Δ¯Wtlx)

现在关键的观察是 ⫿xtl⫿δxtl 中的每一个始终等于 𝒪(L1/2) 因子,与 {MSϕ(⫿W0lxsl1^),⫿W0lδhsl^}l,s 的线性组合,其中该线性组合中的每个系数都是 𝒪(L1/2) 且是确定性的。 我们将这样的线性组合称为良好的线性组合 我们可以通过 t 上的归纳论证看出这一点。事实上,在初始化t=0时,这个说法是非常正确的。 假设此声明对于 t 成立,那么很容易看出对于向后传递 kets ⫿δxtl 它在 t+1 处仍然成立。 唯一重要的部分是显示 t+1 的前向传播。 通过上面的泰勒展开,我们只需要证明 ϕ(⫿W0lxtl1^)[⫿Δ¯Wtlxtl1+⫿W0lxtl1˙] 是通过良好的线性组合“很好地近似”的。 通过归纳,⫿Δ¯Wtlxtl1⫿W0lxtl1˙ 都是良好线性组合与某些 stϕ(⫿W0mxsm1^) 形式项之间的乘积。 因此 ϕ(⫿W0lxtl1^)[⫿Δ¯Wtlxtl1+⫿W0lxtl1˙] 的形式是 ϕ(⫿W0lxtl1^)ϕ(⫿W0mxsm1^) 乘以良好的线性组合。 ϕ(⫿W0lxtl1^)ϕ(⫿W0mxsm1^)仅与该线性组合中的单个分量相关,并且与所有其他分量无关。 因此,在深度求和时,不相关的分量会经历大数定律,可以将 ϕ(⫿W0lxtl1^)ϕ(⫿W0mxsm1^) 替换为其期望值;相关分量只是每个大小为 𝒪(L3/2)𝒪(L) 个元素的总和,因此总共为 o(1) 这样就完成了归纳。

这样推理,好的线性组合的系数就对应于DefinitionE.1中的Γ,填入归纳的细节产生了定义E.1中的递归公式。

最后,由于良好的线性组合是独立项的大和,因此中心极限定理告诉我们{⫿xtl,⫿δxtl}l,t分布收敛于高斯过程。

声明 E.1对于理论家来说是个好消息,我们有一个如此简单的基本架构形式。 同时,人们可能会担心这种高斯形式缺乏表现力。 但事实上,一些常见的架构或算法选择会使极限变得非高斯分布。 例如,使用 Adam 或 SignSGD 等自适应优化器。 或者在矩阵乘法之前添加非线性,即“prenonlin”(除了后面的“postnonlin”)。

一般来说,我们可以得到一个带有 McKean-Vlasov 元素的随机微分方程,描述 xtl 随着深度和时间的演变。 然而,所涉及的随机积分不是通常的伊藤或斯特拉托诺维奇积分,因为深度演化需要对布朗运动的非适应过程进行积分。 相反,我们需要使用 Skorohod 积分,并且 SDE 仅在 Malliavin 微积分意义上定义。 这不仅仅是数学上的挑剔;相反,假设伊藤微积分(相当于假设某些量之间不正确的独立性)将导致错误的预测和计算。 Malliavin 微积分与张量程序密切相关,我们将在未来的工作中发展它们的关系以及一般无限深度极限的理论。

附录F一般情况下证明的启发式

本节中的符号主要在附录A中定义。 完整的符号在[24]中定义。

F.1 深度-μP

MS(x)=xx,1/n=Gx 位于 G=I11/n 处,其中 xn 处。 回想一下网络的定义和归一化梯度

x1 =Uξ
hl =Wlxl1
xl =xl1+1LGϕ(hl)
f(ξ) =VxL
δ~xL =nV
δ~hl =ϕ(hl)(Gδ~xl)
δ~xl1 =δ~xl+1LWlδ~hl

其中 V=Θ(1/n) 坐标、δ~xl=Θ(1) 坐标和 Wl=Θ(1n) 坐标。

我们还滥用了 G 符号,并将其用作 ket 上的运算符:G⫿x=def⫿x𝔼⫿x

向前。

与线性情况类似,可以证明在技术条件下(主要是在激活函数上)TP 的无限深度极限遵循动态

d⫿xtλ =dλGϕ(⫿W0λ⫿xtλ+dλ⫿Δ¯Wtλ~⫿xtλ)
=dλGϕ(⫿W0λ⫿xtλ)+dλGϕ(⫿W0λ⫿xtλ)⫿Δ¯Wtλ~⫿xtλ
=dλGϕ(⫿^W0λ⫿^xtλ+⫿˙W0λ⫿˙xtλ)+dλGϕ(⫿W0λ⫿xtλ)⫿Δ¯Wtλ~⫿xtλ
=dλGϕ(⫿^W0λ⫿^xtλ)+dλGϕ(⫿W0λ⫿xtλ)(⫿˙W0λ⫿˙xtλ~+⫿Δ¯Wtλ~⫿xtλ)

其中 λ[0,1] 指分数图层索引(λ 表示图层索引 λLL),t 指到训练步骤, ⫿W0λ⫿ 矩阵运算符(在附录 B中定义),波浪线符号指的是对象的“标准化”版本,即乘以ket 与 (dλ)c 对于某些 c ,使得乘法(归一化 ket)为 Θ(1) w.r.t。 L,对于规范化运算符也是如此。 如果 δ~ 已经位于更宽的波浪号符号下,我们还将其简化为 δ 第一项代表高斯噪声。

在线性情况下,我们有

d⫿xtλ=dλ(⫿^W0λ⫿^xtλ)+dλ(⫿˙W0λ⫿˙xtλ~+⫿Δ¯Wtλ~⫿xtλ)

笔记

⫿˙W0λ⫿˙xtλ=dλs=0t1⫿δhsλ~W0λδ~hsλ⫿xtλ=dλ⫿δ𝒉<tλ~ˇW0λδ~𝒉<tλ⫿xtλ

使用多向量符号,我们写

⫿Δ¯Wtλ~⫿xtλ =η⫿δ𝒉<tλ~𝝌𝒙<tλ⫿xtλ=ηs<t⫿δhsλ~χsxsλ⫿xtλ
⫿Δ¯Wtλ⫿xtλ =η⫿δ~𝒉<tλ𝝌𝒙<tλ⫿xtλ=ηs<t⫿δ~hsλχsxsλ⫿xtλ
落后。

与前向传播类似,我们获得无限深度 TP 的以下动态

d⫿δ~xτλ =dλ⫿Wτλ⫿ϕ(Wτλxτλ)(Gδ~xτλ)
=dλ(⫿^W0λ⫿^+⫿˙W0λ⫿˙+dλ⫿Δ¯Wτλ~⫿)[ϕ(⫿W0λxτλ^+dλ⫿W0λxτλ~˙+dλ⫿Δ¯Wτλ~⫿xτλ)⫿Gδ~xτλ]
=dλ⫿^W0λ⫿^[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]+dλ⫿˙W0λ⫿˙[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]+dλ⫿Δ¯Wτλ~⫿[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]
+dλ⫿˙W0λ⫿˙[ϕ′′(⫿W0λxτλ^){⫿W0λxτλ~˙+⫿Δ¯Wτλ~⫿xτλ}⫿Gδ~xτλ]

这里 (dλ)3/2 术语被删除了。 各个术语可以简化如下

⫿Δ¯Wτλ~⫿[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]=η⫿𝒙<τλδ𝒉<τλ~⫿[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]𝝌η⫿𝒙<τλ𝝌δ𝒉<τλ~⫿δhτλ~
⫿˙W0λ⫿˙[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ] =[⫿𝒙<τλˇW0λ𝒙<τλ⫿+⫿𝒙τλˇW0λ𝒙τλ⫿][ϕ(⫿W0λxτλ^)⫿Gδ~xτλ]
=⫿𝒙<τλ𝔼[ϕ(⫿W0λxτλ^)⫿Gδ~xτλ⫿W0λ𝒙<τλ^]+⫿𝒙τλ𝔼[ϕ′′(⫿W0λxτλ^)⫿Gδ~xτλ]
=Θ(dλ)

产品规则中的其他条款被删除,因为

ϕ(⫿W0λxτλ^)⫿W0λ𝒙<τλ^=⫿Gδ~xτλ⫿W0λxτλ^=0

F.2 1/L分支

F.2.1转发:

d⫿xtλ =dλG𝔼[ϕ(⫿W0λ⫿xtλ+⫿Δ¯Wtλ⫿xtλ)⫿U0,V0]
=dλG𝔼[ϕ(⫿^W0λ⫿^xtλ+⫿Δ¯Wtλ⫿xtλ)⫿U0,V0]

其中等式如下,因为 ⫿xtλ 包含 ⫿U0,V0,σ 代数,因此 ⫿˙W0λ⫿˙xtλ=0 ⫿Δ¯Wtλ⫿σ(⫿U0,V0)σ(⫿U0,V0)开始,⫿Δ¯Wtλ⫿xtλσ(⫿U0,V0),期望值实际上刚刚超过⫿^W0λ⫿^xtλ

F.2.2 向后

d⫿δ~xτλ =dλ𝔼[⫿Wτλ⫿ϕ(Wτλxτλ)(Gδ~xτλ)⫿U0,V0]
=dλ𝔼[⫿Δ¯Wτλ⫿ϕ(Wτλxτλ)(Gδ~xτλ)⫿U0,V0]

这里 ⫿^W0λ⫿^⫿˙W0λ⫿˙ 被丢弃,因为前者是零均值且独立于 ⫿U0,V0,后者被丢弃是因为 ⫿xtλ 是包含 ⫿U0,V0σ 代数。

F.3 1/Lα分支,α(1/2,1]

F.3.1转发

d⫿xtλ =(dλ)αG𝔼[ϕ(⫿W0λ⫿xtλ+(dλ)1α⫿Δ¯Wtλ⫿~xtλ)⫿U0,V0]
=dλ𝔼[ϕ(⫿^W0λ⫿^xtλ)]G⫿Δ¯Wtλ⫿xtλ

因为和上面的理由是一样的。

F.3.2 向后

d⫿δ~xτλ =dλ𝔼[⫿Wτλ⫿ϕ(Wτλxτλ)(Gδ~xτλ)⫿U0,V0]
=dλ𝔼[⫿Δ¯Wτλ⫿ϕ(Wτλxτλ)(Gδ~xτλ)⫿U0,V0]
=dλ𝔼[ϕ(⫿W0λxτλ^)]⫿Δ¯Wτλ⫿Gδ~xτλ

这里,

⫿ϕ(Wτλxτλ)(Gδ~xτλ)𝔼[ϕ(⫿W0λxτλ^)]G⫿δ~xτλ+(dλ)1α𝔼[ϕ′′(⫿W0λxτλ^)]G⫿Δ¯Wτλ⫿δ~xτλ

F.4索赔的理由

声称7.2 α+γ1很简单时训练期间的稳定性(需要一些激活函数的技术条件)。 这是因为权重更新的阶数为 Lαγ,而特征更新涉及的大小不超过 L 项,大小为 Lαγ(加上不有助于大深度限制中的更新)。 α+γ>1时,最多L个阶Lαγ项之和的贡献将减小到零,网络输出ft在这种情况下将收敛到 f0,产生一个微不足道的极限。 然而,当 α+γ=1 时,更新在无限深度限制中仍然很重要,从而产生了一个不平凡的限制。

声称7.3 考虑稳定且重要的参数化(即 α+γ=1)。 仅当 α1/2 时才能实现初始化的忠实性。 这在 [7] 中通过更通用的设置得到了证明。 只要α1,就可以确保训练期间的忠实度,因为功能更新始终是Θ(1)深度。 在这种情况下,对于 α>1γ<0 和权重更新,随着深度的增加而爆炸,这会产生 𝒉 的爆炸行为。

声明7.4α(1/2,1]时,我们在L时获得平滑的极限动力学,如部分所示t6> F.3 这个限制过程是一个平滑的过程(没有布朗跳跃),满足所需的冗余定义。

声称7.5 仍有待证明Depth-μP是非冗余的。 这是本例中动态限制的结果 (Section F.1)。 使用 Depth-μP,隐藏层初始化的随机性在整个训练过程中始终存在,从而产生一个打破冗余的类布朗项。

声称7.6 在Depth-μP中,WtlW0lΘ(1/L),它比W0l小得多。 因此,ϕ(Wtl𝒙tl1)ϕ(W0l𝒙tl1)ϕ(W0l𝒙tl1)((WtlW0l)𝒙tl1)=o(1/L)满足7.7 与深度μP情况类似,对于α[1/2,1),前向传递中的激活可以线性化,这表明α+γ=1时的分层线性化。

附录 G其他实验

G.1 大深度标准参数化失败

Refer to caption
Refer to caption
图 20: 由于数值问题,使用标准参数化的训练在大深度时失败。

G.2 块深度为 2 的实验

目前,我们的理论涵盖了块深度为 1 的 resnet,并且我们的实验证实了理论结果。 我们对时钟深度 2(即残差块由 2 个全连接层组成)进行了类似的实验,看看学习率是否随 Depth-μP 变化。结果报告于21中。 结果显示学习率发生显着变化,这可能表明随着块深度的增加,需要进行调整以稳定超参数随深度的变化。

Refer to caption
Refer to caption
图 21: 设置与 10相同,但块深度为2。

G.3其他实验

Refer to caption
图 22: 图相同。 10(Up,Depth-μP),具有多个时间切片。
Refer to caption
图 23: 图相同。 10(,使用γ=1进行标准参数化),具有多个时间切片。
Refer to caption
图 24: 图相同。 10(底部,无缩放的标准参数化,α=0,γ=0)具有多个时间片。
Refer to caption
图 25: 13相同,具有多个时间片。