arxiv CodeGen2: Lessons for Training LLMs on Programming and Natural Languages

名称
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages
首页
https://yiyibooks.cn/arxiv/2305.02309v2/index.html
原始地址
https://arxiv.org/pdf/2305.02309.pdf
描述
大型语言模型(LLM)在程序合成和理解任务的表示学习方面表现出了卓越的能力。学习表示的质量似乎由神经缩放定律决定,作为模型参数和观察数量的函数,同时通过可用数据和计算量对模型性能施加上限,这是昂贵的。
在本研究中,我们试图通过统一四个关键组成部分来提高 LLM 的程序综合训练效率:(1)模型架构,(2)学习方法,(3)填充采样,以及(4)数据分布 ...