代码合成需要深入理解复杂的自然语言问题描述、生成复杂算法和数据结构的代码指令以及成功执行全面的单元测试,这提出了重大挑战。虽然大型语言模型 (LLM) 在自然语言处理方面表现出令人印象深刻的熟练程度,但它们在代码生成任务中的性能仍然有限。在本文中,我们介绍了一种利用多代理提示来执行代码生成任务的新方法,该方法独特地复制了人类开发人员观察到的程序合成的完整周期 ...
0 0 0 2024/07/27 arXiv:2405.11403v1 muzhi
大型语言模型(LLM)代理能够执行广泛的操作,例如调用工具和控制机器人,在应对现实世界的挑战方面显示出巨大的潜力。通常会提示 LLM 代理通过生成预定义格式的 JSON 或文本来生成操作,这通常受到受限操作空间的限制(例如, ...
0 0 0 2024/07/27 arXiv:2402.01030v4 muzhi
随着软件和社会的发展,软件迁移越来越受到人们的关注。早期的研究主要依靠手工制定的翻译规则在两种语言之间进行翻译,翻译过程容易出错且耗时。近年来,研究人员开始探索在代码翻译中使用预训练的大型语言模型(LLM) ...
0 0 0 2024/07/27 arXiv:2407.07472v1 muzhi
巨大的语言模型(LM)开启了人工智能的新时代,成为基于自然语言的知识任务的门户。尽管 LM 是现代人工智能的基本要素,但它在许多方面也存在固有的限制。我们讨论这些限制以及如何通过采用系统方法来避免它们 ...
0 0 0 2024/07/27 arXiv:2205.00445v1 epsilon
通过多轮对话与人类交互是大型语言模型(LLM)的基本特征。然而,现有用于执行多轮对话的LLM服务引擎​​由于需要重复计算历史 Token 的键值(KV)缓存而效率低下,从而产生高昂的服务成本。为了解决这个问题,本文提出了 AttentionStore,一种新的注意力机制,可以重用 KV 缓存(即 KV 缓存) ...
0 0 0 2024/07/27 arXiv:2403.19708v3 zhuguanyu
指令调优是一种标准技术,用于在初始预训练阶段之后使大型语言模型与最终任务和用户偏好保持一致。最近的研究表明数据工程在指令调整中的关键作用——如果选择得当,只需有限的数据即可实现卓越的性能。然而,对于什么是好的指令调整数据以进行对齐,以及我们应该如何自动有效地选择数据,我们仍然缺乏原则性的理解 ...
0 0 0 2024/07/27 arXiv:2312.15685v2 123123124
知识蒸馏(KD)已成为模型压缩领域广泛使用的技术,其目的是将知识从大型教师模型转移到轻量级学生模型,以实现高效的网络开发。除了对groundtruth的监督之外,vanilla KD方法还将教师的预测视为软标签来监督学生模型的训练。基于普通 KD,人们开发了各种方法来进一步提高学生模型的性能 ...
0 0 0 2024/07/27 arXiv:2404.03693v1 123123124
大型语言模型 (LLM) 用途广泛,可以解决许多任务,但为了计算效率,通常需要将其功能提炼成更小的学生模型。对于分类任务执行此操作的一种方法是通过数据集合成,这可以通过从 LLM 生成每个标签的示例来完成。先前的综合方法使用少样本提示,这依赖于 LLM 的参数知识来生成可用的示例 ...
0 0 0 2024/07/27 arXiv:2405.10040v2 123123124

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)