- 名称
- CodeGen2: Lessons for Training LLMs on Programming and Natural Languages
- 描述
大型语言模型(LLM)在程序合成和理解任务的表示学习方面表现出了卓越的能力。学习表示的质量似乎由神经缩放定律决定,作为模型参数和观察数量的函数,同时通过可用数据和计算量对模型性能施加上限,这是昂贵的。 在本研究中,我们试图通过统一四个关键组成部分来提高 LLM 的程序综合训练效率:(1)模型架构,(2)学习方法,(3)填充采样,以及(4)数据分布 ...