/documents/74602/
基本信息
文件基本信息
名称
EvoLM: In Search of Lost Language Model Training Dynamics
描述
现代语言模型(LM)训练被分为多个阶段,这使得下游开发人员很难评估每个阶段的设计选择的影响。我们推出了 EvoLM,这是一个模型套件,可以对 LM 的预训练、持续预训练、监督微调和强化学习的训练动态进行系统且透明的分析。我们从头开始训练超过 100 个具有 1B 和 4B 参数的 LM,并评估上游(语言建模)和下游(问题解决)能力,包括考虑域内和域外泛化。关键见解强调了过度训练前和训练后的回报递减、在特定领域的持续预训练期间减轻遗忘的重要性和实践、持续预训练在连接训练前和训练后阶段的关键作用,以及配置监督微调和强化学习时的各种复杂的权衡。为了促进开放研究和可重复性,我们发布了所有预训练和后训练模型、所有阶段的训练数据集以及整个训练和评估流程 ...