zhufeizzz的文档

zhufeizzz

个性签名 ...

CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code

自从可以生成长表达式和语句而不是单个下一个标记的神经自然语言到代码模型（NL->Code）的兴起以来，主要问题之一是可靠地评估其生成的输出。在本文中，我们提出了 CodeBERTScore：一种基于 BERTScore 的代码生成评估指标（Zhang 等人，2020） ...

0 0 0 0 2024/04/06 arXiv:2302.05527v2 zhufeizzz

Aligning Offline Metrics and Human Judgments of Value for Code Generation Models

大型语言模型已显示出协助程序员生成代码的巨大潜力。对于这种人类-人工智能结对编程场景，我们凭经验证明，虽然生成的代码最常根据其功能正确性进行评估（即， ...

0 0 0 0 2024/04/06 arXiv:2210.16494v2 zhufeizzz

Large Language Models Meet NL2Code: A Survey

从自然语言描述（NL2Code）生成代码的任务被认为是代码智能领域的一项紧迫而重大的挑战。由于预训练技术的快速发展，越来越多的大型语言模型被提出用于代码，从而引发了 NL2Code 的进步。为了促进该领域的进一步研究和应用，在本文中，我们对 NL2Code 的 27 个现有大型语言模型进行了全面调查，并回顾了基准和指标 ...

0 0 0 0 2024/04/03 arXiv:2212.09420v2 zhufeizzz

Competition-Level Code Generation with AlphaCode

编程是一种强大且无处不在的解决问题的工具。开发可以帮助程序员甚至独立生成程序的系统可以使编程更加高效和易于访问，但迄今为止，整合人工智能创新已被证明具有挑战性。最近的大规模语言模型已经展示了令人印象深刻的生成代码的能力，并且现在能够完成简单的编程任务 ...

0 0 0 0 2024/04/02 arXiv:2203.07814v1 zhufeizzz

PanGu-Coder: Program Synthesis with Function-Level Language Modeling

我们提出了 PanGu-Coder，一种预训练的仅解码器语言模型，采用 PanGu-Alpha 架构进行文本到代码生成，即给定自然语言问题描述的编程语言解决方案的综合 ...

0 0 0 0 2024/04/02 arXiv:2207.11280v1 zhufeizzz

Out of the BLEU: how should we assess quality of the Code Generation models?

近年来，研究人员创建并引入了大量各种代码生成模型。由于人类对每个新模型版本进行评估是不可行的，社区采用了 BLEU 等自动评估指标来近似人类判断的结果。这些指标源自机器翻译领域，目前尚不清楚它们是否适用于代码生成任务以及它们与人类对该任务的评估的一致性如何 ...

0 0 0 0 2024/04/02 arXiv:2208.03133v2 zhufeizzz

Measuring Coding Challenge Competence With APPS

虽然编程是现代社会最广泛应用的技能之一，但现代机器学习模型仍然无法编写基本问题的解决方案。尽管它很重要，但令人惊讶的是，评估代码生成的工作却很少，而且很难准确、严格地评估代码生成性能。为了应对这一挑战，我们引入了 APPS，这是代码生成的基准 ...

0 0 0 0 2024/04/02 arXiv:2105.09938v3 zhufeizzz

LIMA: Less Is More for Alignment

大型语言模型分两个阶段进行训练：（1）从原始文本进行无监督预训练，以学习通用表示，以及（2）大规模指令调整和强化学习，以更好地适应最终任务和用户偏好。我们通过训练 LIMA 来衡量这两个阶段的相对重要性，LIMA 是一个 65B 参数 LLaMa 语言模型，仅在 1,000 个精心策划的提示和响应上使用标准监督损失进行微调，没有任何强化学习或人类偏好建模。 LIMA 表现出了非常强大的性能，仅从训练数据中的少数示例中学习遵循特定的响应格式，包括从规划旅行行程到推测替代历史的复杂查询 ...

0 0 0 0 2024/03/27 arXiv:2305.11206v1 zhufeizzz

Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases

ChatGPT 的成功最近吸引了众多的努力来复制它，其中指令调整策略是取得显著成果的关键因素。指令调优不仅显着增强了模型的性能和泛化能力，而且使模型生成的结果与人类语音模式更加一致。然而，当前的研究很少研究不同数量的指令数据对模型性能的影响，特别是在现实世界的用例中 ...

0 0 0 0 2024/03/27 arXiv:2303.14742v1 zhufeizzz

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback

大型代码语言模型（Code LLM）正在蓬勃发展。每周都会发布新的强大模型，在代码生成任务上展示出卓越的性能。人们提出了各种方法来提高预训练代码 LLM 的代码生成性能，例如监督微调、指令调优、强化学习等 ...

0 0 0 0 2024/04/03 arXiv:2307.14936v1 zhufeizzz