CodeGen2：大语言模型编程和自然语言训练课程

Erik Nijkamp, Hiroaki Hayashi¹¹footnotemark: 1, Caiming Xiong, Silvio Savarese, Yingbo Zhou

Salesforce Research Equal contribution.

摘要

大型语言模型（大语言模型）在程序合成和理解任务的表示学习方面表现出了卓越的能力。学习表示的质量似乎由神经缩放定律决定，作为模型参数和观察数量的函数，同时通过可用数据和计算量对模型性能施加上限，这是昂贵的。

在本研究中，我们尝试通过统一四个关键组件来提高用于程序综合的大语言模型的训练效率：（1）模型架构，（2）学习方法，（3）填充采样，以及（4）数据分布。具体来说，对于模型架构，我们尝试将基于编码器和解码器的模型统一到单个前缀LM中。对于学习方法，（i）因果语言建模，（ii）跨度损坏，（iii）填充被统一为简单的学习算法。对于填充抽样，我们探讨了“免费午餐”假设的主张。对于数据分布，探讨了混合分布以及编程和自然语言的多时期训练对模型性能的影响。

我们对1B大语言模型进行了一系列全面的实证实验，将这次探索的失败和成功总结为五个教训。我们将提供训练的最终方案并发布尺寸为 1B、3.7B、7B 和 16B 参数的 CodeGen2 模型，以及开源的训练框架：https://github.com/salesforce/CodeGen 。

1简介

1.1 动机：大语言模型的成本

大型语言模型（大语言模型）在跨领域的无数任务中表现出了强大的经验表现。在最近的工作（Chen 等人，2021b；Nijkamp 等人，2022；Fried 等人，2022；Allal 等人，2023）中，这些发现已从自然语言转移到编程语言，并取得了令人印象深刻的表现在程序综合和理解任务中。这些模型的吸引力源于三个属性：（1）简单 - 由于依赖自注意力电路，所涉及的架构技术复杂性较低，（2）通用 - 即单个模型可以处理各种不同的任务，而不是与用于 $n$ 任务的 $n$ 专用模型相比，这极大地减少了资源和成本需求，并且，（3）规模 - 即神经缩放法则将模型的性能决定为以下函数：模型参数、数据的数量以幂律形式计算，也就是说，较大的模型通常会在下游任务上产生可预测的改进性能。

然而，这些优点掩盖了尚未解决的挑战：（1）虽然自注意力电路在技术上很简单，但人们必须选择一种注意力掩蔽方案来学习双向表示（编码器）或单向表示（解码器），（2 ）虽然 Transformer 看起来与任务无关，但综合和理解任务尚未统一，（3）虽然通过规模提高性能很有吸引力，但即使为不同的任务训练一小组模型也会产生巨大的成本。对于实践者来说，模型架构、学习算法和数据分布的选择并不明显。对这些选择的探索会因计算需求而导致高昂的货币成本。

1.2 目标：通过统一和开源降低成本

为了解决货币成本和变体选择的问题，我们尝试将（1）模型架构、（2）学习目标、（3）从左到右和填充采样以及（4）数据分布统一到一个配方中，它产生了一个在广泛的综合和理解任务中具有竞争性能的单一通用模型。

为了以原则性的方式实现这些方面的统一，我们提出并评估以下假设：

(1)

模型架构：编码器和解码器表示可以统一为 Prefix-LM (Raffel 等人, 2020)，其中双向自注意力有利于更困难的少样本任务，而不会降低标准因果性能的性能解码器。
(2)

学习算法：因果语言建模和跨度损坏的目标的混合为零样本学习（解码器）和理解任务（编码器）提供了有效的信息传输。
(3)

取样程序：在“免费午餐”假设的假设下，为模型配备从左到右和填充采样，不会增加计算成本。
(4)

数据分布：自然语言和编程语言的混合同时有利于两个领域的任务，而不影响单一模式的性能。

这项工作的目标是（i）分享训练经验并为这种通用模型提供统一的配方，（ii）开源训练程序的实现，以及（iii）开源一系列良好的-训练有素的模型。

1.3 调查结果：结果参差不齐

在我们试图实现这些目标的过程中，我们的方法是尝试在各个方面完全统一并收集证据来指导特征的消融。我们试图通过对 1B 大语言模型进行大量实验的广泛研究来提供证据来拒绝或不拒绝这些假设。我们假设的结果总结如下：

(1)

模型架构：我们未能提供证据来量化 Prefix-LM 相对于我们的评估任务组中的因果解码器基线的任何优势。
(2)

学习算法：我们成功地实现了目标函数的简单混合，同时保持零样本性能。
(3)

取样程序：我们未能为“免费午餐”假设提供证据，即在不产生额外计算成本的情况下为模型配备填充采样。
(4)

数据分布：我们展示了将自然语言和编程语言混合到单个模型中的有希望的证据。我们为多纪元训练提供了强劲的结果。

虽然我们没有实现完全统一，但我们获得了有价值的发现，并根据许可数据训练了有竞争力的开源模型。

1.4 贡献：课程、配方和开源

我们分享这些经过以下贡献提炼出来的发现：

•

五课：结果的提炼：(1) Prefix-LM 作为一种架构，(2) 填充采样的免费午餐假设，(3) 目标函数的选择，(4) 自然语言和编程语言的数据混合，以及 (5) 多语言-纪元训练，
•

简单混合目标：我们提出了一种简单、统一的未损坏和文件内跨度损坏序列与下一个 Token 预测的混合，这为从左到右和填充中间的自回归采样提供了有竞争力的性能，
•

开源实现：我们将为最终配方的大语言模型训练提供精心设计和测试的参考实现，
•

开源模型：一旦更大的大语言模型的训练收敛，我们将开源仅在许可数据上训练的 CodeGen2 系列可填充模型。

1.5相关工作

代码上的大语言模型

Transformer 通过注意力机制捕获序列元素之间的依赖性（Bahdanau 等人，2014），并且具有高度可扩展性，如自然语言处理（Devlin 等人，2019；Lewis 等人，2020；拉斐尔等人，2020）。一些工作探索了这些程序综合模型（Chen 等人，2021a；Austin 等人，2021；Li 等人，2022；Fried 等人，2022；Nijkamp 等人，2022；Allal 等人，2023）及其有效性（Vaithilingam 等人，2022）。

消融研究

Raffel 等人 (2020) 以 Prefix-LM 的形式引入非因果解码器的概念，在对下游任务进行微调后，其性能优于因果解码器。没有评估少样本生成任务的表现。 Wang 等人 (2022) 对架构和目标进行了广泛的消融研究，得出的结论是，具有因果语言建模的纯解码器模型表现出最强的零样本泛化能力。因此，我们将我们的研究限制在因果和非因果解码器上。 Tay 等人 (2022a) 比较编码器-解码器、仅解码器和 Prefix-LM 架构，并报告编码器-解码器模型的有益性能，但不评估零样本生成任务。作者后来在(Tay等人, 2022b)中采用Prefix-LM代替编码器-解码器。

数据混合

LaMDA （Thoppilan 等人，2022）接受了各种数据源的混合训练，包括对话、代码文档、问答数据、教程和维基百科。然而，这种混合物的影响和具体来源尚不清楚。 Xie等人(2023)提出了一种基于重要性重采样的数据选择方法，允许混合不同大小的数据集，但评估仅涵盖仅编码器模型。

2方法：从统一到消融

在本节中，定义了我们目标的要求以及消融的相关组件。

2.1 要求：执行各种任务

我们的目标是通过提供学习方法和模型架构的统一，使程序综合的大语言模型训练更加高效，同时在相同的计算预算下保持（或提高）单个任务的性能。任务集如下：

(1)

从左到右采样的程序综合（零样本）作为意图规范的提示采用函数签名和文档字符串的形式。根据从左到右自回归方式的提示，对程序进行有条件采样（或完成）。招募 HumanEval (Chen 等人, 2021b) 来评估合成程序的质量。具体来说，对于提示 $(a)$ ，我们采样 $b\sim P(b|a)$ 。
(2)

带有填充采样的程序综合（零样本）提示包括过去和未来的标记，“中间”的标记应该被采样。例如，提示包含函数定义的前几行和最后几行，而函数体则需要填写。具体来说，对于提示 $(a,c)$ ，我们采样 $b\sim P(b|a,c)$ 。招募 HumanEval-Infill (Fried 等人, 2022) 基准进行评估。
(3)

从示例中进行上下文学习（少样本）任务是通过给定一组示例（或“镜头”）来定义的。特别是，对于带有代码 $x$ 和标签 $y$ 的 $n$ 少样本示例 $((x_{1},y_{1}),\ldots,(x_{n},y_{n}))$ ，我们对标签 $y_{n+1}\sim P(y|(x_{1},y_{1}),\ldots,(x_{n},y_{n}),(x_{n+1}))$ 进行采样。招募 XSum 基准（Narayan 等人，2018）进行评估。
(4)

使用双向表示的程序理解（张力）因果屏蔽的解码器模型仅限于以从左到右的方式进行自回归采样。为了理解任务，例如缺陷检测（Lu等人，2021），随着时间的推移消除这种约束，使得表示可以同时成为所有输入标记的函数似乎是可取的。这种表示是从没有因果屏蔽的双向语言模型中获得的。招募 CodeXGLUE (Lu 等人, 2021) 和 SuperGLUE (Wang 等人, 2019) 基准进行评估。

2.2组件：架构、目标、采样、数据

模型架构

在使用 Transformer 进行表示学习时（Devlin 等人，2019；Lewis 等人，2020；Raffel 等人，2020），普遍存在两种建模方案，它们在隐藏向量上下文化的注意力掩码方面有所不同。对于 $n$ 向量的序列 $x=(x_{1},\ldots,x_{n})$ ，我们有所不同：（1）基于双向编码器的表示，其中每个词符向量 $x_{i}$ 可以参与所有其他词符向量标记 $\{x_{j}:i=1,\ldots,n\}$ ，（2）基于单向解码器的表示，其中每个词符向量 $x_{i}$ 只能参与先前的标记 $\{x_{j}:j\leq i\}$ 。虽然每个隐藏向量可以与所有其他向量进行上下文关联的基于编码器的表示对于理解任务可能是理想的，但语言建模需要具有时间因果掩码的基于解码器的表示，其中联合密度被分解为条件随时间的乘积脚步。为了统一这两种方案，我们采用基于前缀的语言建模（Prefix-LM）的概念（Raffel等人，2020）。对于前缀，我们将输入序列 $x$ 分解为前缀 $p$ 和上下文 $c$ 。对于前缀 $p=(x_{1},\ldots,x_{m})$ （其中 $m<n$ )，每个词符可以参与前缀中的所有其他标记，这相当于双向表示。对于上下文 $c=(x_{m+1},\ldots,x_{n})$ ，每个词符只能关注之前的标记，这相当于单向解码器表示。这将前缀上的双向注意力与因果屏蔽的要求统一起来，以随时间分解联合密度。希望能够实现综合任务的竞争性自回归采样，同时学习强大的双向表示以理解任务。

学习算法

基于编码器或解码器的模型架构的选择通常指导语言建模学习算法的选择。基于编码器的模型可以通过去噪跨度损坏形式的掩码语言建模任务进行训练（Devlin 等人，2019；Raffel 等人，2020）。基于解码器的模型可以以下一个 Token 预测任务（Radford等人，2018）的形式被训练为密度语言模型。对于基于编码器的模型，流行的算法是词符重建或去噪任务的变体，其中标记的范围会受到损坏或扰动。对于 $n$ 标记的序列 $x=(x_{1},\ldots,x_{n})$ ，扰动 $\tilde{x}=(x_{1},m_{1},x_{5},x_{6},m_{2},x_{7},\ldots,x_{n})$ 将标记的范围替换为特殊掩码标记 $(m_{1},m_{2},\ldots)$ 。学习任务是从扰动 $\tilde{x}$ 中恢复原始序列 $x$ 。基于去噪的学习目标已被证明对于语言理解任务非常有效。对于基于解码器的模型，流行的算法是基于最大似然的因果语言建模学习，其形式为下一个词符预测任务（Radford等人，2018）。对于 $n$ 标记的序列 $x=(x_{1},\ldots,x_{n})$ ，任务是在给定先前标记 $(x_{j}:j<i)$ 的情况下预测词符 $x_{i}$ 。在这项工作中，我们探索了一种混合了因果语言建模目标和跨度损坏的学习算法。我们假设对于这种混合，应尽量减少特定于任务的先验信息，以避免过度拟合特定任务。也就是说，理想情况下，任务混合比、前缀长度和跨度长度的分布是均匀的。

抽样程序

从语言模型中进行自回归采样的形式的程序合成已被确立为主要方法。虽然从左到右采样只能考虑以前的标记，但通常在编辑现有代码文件时，需要根据文件中当前位置之前和之后的上下文来调节采样。多个变体 (Du 等人, 2022; Fried 等人, 2022; Bavarian 等人, 2022) 将序列 $(a,b,c)$ 重新排列为 $(a,{<}mask{>},c,{<}end{>},b)$ ，使得给定 $(a,c)$ 的填充 $b$ 可以通过因果屏蔽解码器中的标准下一个标记预测目标来学习。 Bavarian 等人 (2022) 在“免费午餐”假设下声称，经过这种修改的训练观察的训练大语言模型不会在零样本生成任务中产生任何额外的计算成本或性能下降。

数据分布

在最大似然学习中，通过最小化数据和模型分布之间的某些偏差度量来学习模型。令人惊讶的是，当增加观测数量和模型参数时，从拟合密度中采样时出现了少样本能力（Brown等人，2020；Wei等人，2022）。对于程序综合，Nijkamp 等人 (2022) 演示了多轮对话方案中的采样可执行代码，类似于 (Ouyang 等人, 2022)，但没有明确的指令微调。假设这些能力源于数据的弱监督。程序通常包含带有英文说明的函数。我们尝试增加自然语言的数量，以进一步提高这种能力，并显式地创建自然语言和编程语言的混合。此外，生成的模型可能在两个领域的下游任务上都具有竞争力。

3 结果：教训和秘诀

在本节中，我们提出统一和消融研究尝试的实证结果和结论，这些结果被提炼为以下五个教训。

3.1 第1课：Prefix-LM的好处值得怀疑

正如所讨论的，Prefix-LM 充当具有双向注意力的编码器，以及具有因果掩码的自回归解码器。然而，尚不清楚这种架构的统一是否会带来两端的竞争性能。我们从三个角度评估这个问题：数据、表征和客观。下面，我们将双向注意力覆盖的序列的前半部分称为非因果部分，将序列的其余部分称为因果部分。

3.1.1数据

背景和假设

当使用下一个词符预测训练 Prefix-LM 时，非因果部分的损失被掩盖，因为预测是由编码时使用的未来标记告知的。根据每个序列中非因果部分的长度，这意味着负责梯度更新的有效标记数量的减少，这就提出了前缀掩码是否会对 Prefix-LM 的学习产生负面影响的问题。具体来说，我们假设由于通过 NTP 的信息传输速率较慢，非因果部分缺乏梯度会导致代码生成任务结果更差。