自然语言处理(NLP)中的机器学习(ML)系统在推广到分布(OOD)数据方面面临着重大挑战,其中测试分布与培训数据分布不同。这提出了有关NLP模型鲁棒性及其高精度的重要问题,由于它们对系统偏见的敏感性,可能会人为地膨胀。尽管存在这些挑战,但从文本分类中的OOD角度来看,对概括挑战缺乏全面的调查 ...
在开放集域的概括(OSDG)中,该模型均暴露于数据外观(域)和开放式条件的新变化,其中已知和新型类别在测试时都存在。这项任务的挑战源于双重需要跨越各个领域并准确量化类别新颖性,这对于在动态环境中的应用至关重要。最近,元学习技术在OSDG中表现出了卓越的结果,通过采用各种随机类别和预定义的域分区策略来有效地策划元训练和检验任务 ...
我们在评估代码生成模型上介绍了新的基准:MBXP和多语言HumaneVal和Mathqa-X。这些数据集涵盖了10种编程语言,并使用可扩展的转换框架生成,该框架将原始Python数据集的提示和测试用例转移到目标语言中的相应数据中。使用这些基准测试,我们能够以多种语言方式评估代码生成模型的性能,并发现了语言模型在室外语言上的概括能力,多语言模型的优势比单语语言相对于单语语言,促使几乎没有射击的能力促使模型新语言以及在单声道上甚至可以在单声道上进行零击功能 ...
大型语言模型(LLMS)在协助人类进行编程和促进编程自动化方面表现出色。但是,现有的基准评估LLMS的代码理解和产生能力的基准受到严重限制。首先,大多数基准都不足够,因为它们专注于狭窄的流行编程语言和特定任务,而现实世界中的软件开发方案表明,对于具有多种语言和多任务编程环境的系统以满足各种要求 ...
我们介绍了Vault,这是一个使用多种编程语言的高质量代码文本对的数据集,用于培训大型语言模型以了解和生成代码。我们提出了彻底提取使用基于规则和深度学习的方法的样品的方法,以确保它们包含高质量的代码和文本,从而产生了4300万高质量代码文本对的数据集。我们对包括代码生成,代码搜索和代码摘要在内的常见编码任务的广泛评估表明,当对金库上的微调代码大语言模型时,此类模型的表现优于在其他数据集(例如codesearchnet)上训练的相同模型 ...
大型语言模型(LLMS)在代码生成中表现出了前所未有的功能。但是,LLM生成的代码仍然困扰着广泛的功能错误,尤其是对于LLMS以前从未见过的复杂编程任务。最近的研究表明,开发人员经常在检查和修复LLMS生成的不正确代码方面努力,从而降低了他们对基于LLM的代码生成的生产力和信任 ...
大型语言模型(LLM)最近在代码生成方面取得了令人印象深刻的性能,为程序员在软件开发方面提供了革命性的帮助。然而,由于 LLM 的自回归性质,它们很容易在代码生成过程中受到错误累积的影响。一旦产生错误, LLM 只能继续生成以此为条件的后续代码,因为他们无法调整先前的输出 ...
通常,深度学习的实验环境假设训练和测试数据集是从相同分布中取样的。但是,在现实情况下,可能发生两个数据集(域移动)之间的分布差异,这成为阻碍模型概括性能的主要因素。解决此问题的研究领域称为域泛化,它通过明确或隐式提取域不变特征来减轻域转移问题 ...
域的概括旨在增强对域移动的模型鲁棒性,而无需访问目标域。由于用于训练的可用源域是有限的,因此最近的方法着重于生成新型域的样本。然而,当合成丰富的领域时,他们要么要在优化问题上挣扎,要么引起类语义的扭曲 ...
最近,大型语言模型(LLM)在自然语言理解和生成任务中的惊人表现引发了对将它们用作中央控制器的人们来构建代理系统的大量探索。扩展应用场景。然而,目前的 LLM 工具使用能力仅限于单个文本查询,这可能会导致用户真正理解含糊不清... ...