自动睡眠分期对于睡眠评估和疾病诊断至关重要。大多数现有方法取决于一个特定的数据集,并且仅限于将培训数据和测试数据来自同一数据集的其他看不见的数据集。在本文中,我们将域的概括引入自动睡眠阶段,并提出了可推广睡眠阶段的任务,该任务旨在提高模型的概括能力,使其无法看到数据集 ...
基于实例歧视任务的自我监督学习(SSL)方法取得了巨大的成功。尽管他们成功了,但SSL模型通常很难为看不见的域数据生成有效的表示。为了解决这个问题,已经进行了无监督的域概括(UDG)的研究,该研究旨在开发可以生成域 - iRrelevant特征的SSL模型 ...
跨域情感分析旨在使用在源域上训练的模型来预测目标域中文本的情绪,以应对标记数据的稀缺性。先前的研究主要是针对任务的基于跨透明的方法,这些方法受到不稳定性和泛化不良的方式。在本文中,我们探讨了有关跨域情感分析任务的对比度学习 ...
自然语言处理(NLP)中的机器学习(ML)系统在推广到分布(OOD)数据方面面临着重大挑战,其中测试分布与培训数据分布不同。这提出了有关NLP模型鲁棒性及其高精度的重要问题,由于它们对系统偏见的敏感性,可能会人为地膨胀。尽管存在这些挑战,但从文本分类中的OOD角度来看,对概括挑战缺乏全面的调查 ...
在开放集域的概括(OSDG)中,该模型均暴露于数据外观(域)和开放式条件的新变化,其中已知和新型类别在测试时都存在。这项任务的挑战源于双重需要跨越各个领域并准确量化类别新颖性,这对于在动态环境中的应用至关重要。最近,元学习技术在OSDG中表现出了卓越的结果,通过采用各种随机类别和预定义的域分区策略来有效地策划元训练和检验任务 ...
我们在评估代码生成模型上介绍了新的基准:MBXP和多语言HumaneVal和Mathqa-X。这些数据集涵盖了10种编程语言,并使用可扩展的转换框架生成,该框架将原始Python数据集的提示和测试用例转移到目标语言中的相应数据中。使用这些基准测试,我们能够以多种语言方式评估代码生成模型的性能,并发现了语言模型在室外语言上的概括能力,多语言模型的优势比单语语言相对于单语语言,促使几乎没有射击的能力促使模型新语言以及在单声道上甚至可以在单声道上进行零击功能 ...
大型语言模型(LLMS)在协助人类进行编程和促进编程自动化方面表现出色。但是,现有的基准评估LLMS的代码理解和产生能力的基准受到严重限制。首先,大多数基准都不足够,因为它们专注于狭窄的流行编程语言和特定任务,而现实世界中的软件开发方案表明,对于具有多种语言和多任务编程环境的系统以满足各种要求 ...
我们介绍了Vault,这是一个使用多种编程语言的高质量代码文本对的数据集,用于培训大型语言模型以了解和生成代码。我们提出了彻底提取使用基于规则和深度学习的方法的样品的方法,以确保它们包含高质量的代码和文本,从而产生了4300万高质量代码文本对的数据集。我们对包括代码生成,代码搜索和代码摘要在内的常见编码任务的广泛评估表明,当对金库上的微调代码大语言模型时,此类模型的表现优于在其他数据集(例如codesearchnet)上训练的相同模型 ...
大型语言模型(LLMS)在代码生成中表现出了前所未有的功能。但是,LLM生成的代码仍然困扰着广泛的功能错误,尤其是对于LLMS以前从未见过的复杂编程任务。最近的研究表明,开发人员经常在检查和修复LLMS生成的不正确代码方面努力,从而降低了他们对基于LLM的代码生成的生产力和信任 ...
大型语言模型(LLM)最近在代码生成方面取得了令人印象深刻的性能,为程序员在软件开发方面提供了革命性的帮助。然而,由于 LLM 的自回归性质,它们很容易在代码生成过程中受到错误累积的影响。一旦产生错误, LLM 只能继续生成以此为条件的后续代码,因为他们无法调整先前的输出 ...