基本信息

文件基本信息

名称

EvoLM: In Search of Lost Language Model Training Dynamics

首页

https://yiyibooks.cn/arxiv/2506.16029v2/index.html

原始地址

https://arxiv.org/abs/2506.16029

描述

现代语言模型（LM）训练被分为多个阶段，这使得下游开发人员很难评估每个阶段的设计选择的影响。我们推出了 EvoLM，这是一个模型套件，可以对 LM 的预训练、持续预训练、监督微调和强化学习的训练动态进行系统且透明的分析。我们从头开始训练超过 100 个具有 1B 和 4B 参数的 LM，并评估上游（语言建模）和下游（问题解决）能力，包括考虑域内和域外泛化。关键见解强调了过度训练前和训练后的回报递减、在特定领域的持续预训练期间减轻遗忘的重要性和实践、持续预训练在连接训练前和训练后阶段的关键作用，以及配置监督微调和强化学习时的各种复杂的权衡。为了促进开放研究和可重复性，我们发布了所有预训练和后训练模型、所有阶段的训练数据集以及整个训练和评估流程 ...