最近,以广泛的未标记编程语言数据以自制的方式培训的大型代码生成模型取得了巨大的成功。尽管这些模型获得了大量的代码知识,但它们在理解任务(例如代码搜索和克隆检测)方面表现较差,因为它们是专门培训的。预先培训大量代码数据的较大的纯编码体系结构模型可以提高理解性能 ...
多步性推理对于大语言模型(LLM)至关重要,但是多语言性能仍然具有挑战性。虽然对经营链(COT)提示推理的推理,但由于推理和执行的纠缠而与非英语语言斗争。促使经营计划(POT)促使推理与执行区分开,提供了有希望的替代方案,但将挑战转移到从非英语问题中产生程序 ...
当前的先进的长篇小说语言模型为现实世界软件工程应用程序提供了巨大的潜力。但是,这个关键领域的进展仍然受到基本限制的阻碍:缺乏严格的评估框架无法理解长期代码。为了差距这一障碍,我们从四个方面(8个任务)中提出了长期的代码理解基准朗科迪尔,以评估LCLMS的长期代码理解能力的长期代码理解能力,包括代码单位感知,内部代码单元理解,间代码单元之间的关系理解和长期代码文档的理解 ...
大型语言模型在文本生成方面的成功也使它们在代码生成和编码任务方面表现得更好。虽然很多工作已经证明了它们在代码完成和编辑等任务上的卓越性能,但仍不清楚原因。我们通过探索自回归模型在多大程度上理解底层程序的逻辑结构来帮助弥合这一差距 ...
代码嵌入式捕获代码的语义表示,对于各种与代码相关的大型语言模型(LLM)应用程序(例如代码搜索)至关重要。以前的培训主要依赖于通过比较积极的自然语言(NL)编码对与内部负面负面物质来优化Infonce损失。但是,由于代码环境的稀疏性质,仅通过比较正面和负面对之间的主要差异而无法捕获更深层的语义细微差别 ...
公共法规审查(PCR)是开发团队内部代码审查的助手,以公共软件答案(SQA)社区的形式,可帮助开发人员访问高质量且有效的审核服务。当前有关PCR的方法主要集中在审阅者的观点上,包括找到能力的审稿人,预测评论质量以及推荐/生成/生成评论评论。但是,没有很好的研究是,如何满足开发人员发布的审查必要性请求,从而提高其可见性,这反过来又是更好的审查回复的先决条件 ...
当前的基于知识的问题答案的方法(KBQA)通常依赖于复杂的培训技术和模型框架,从而导致实际应用的许多局限性。最近,大语言模型(LLMS)中的文本学习(ICL)功能的出现提供了一个简单且无训练的语义解析范式的KBQA:给定少数问题及其标记的逻辑形式,例如演示示例,LLM可以理解一个新问题的逻辑形式,并为新问题生成逻辑形式。但是,当前强大的LLM在预训练期间几乎没有接触逻辑形式,从而导致高格式错误率 ...
尽管该段的任何模型(SAM)在语义分段中擅长通用图像,但当应用于医学图像时,其性能显着恶化,这主要归因于其训练数据集中医学图像的足够表示。尽管如此,由于医学图像中常见的长尾问题,收集普遍适用的全面数据集和培训模型尤其具有挑战性。为了解决这一差距,在这里,我们提出一个自动采样元SAM(SSM-SAM)框架,以进行几次医学图像分割 ...
最近,预培训的编程语言模型(例如Codebert)在代码搜索中已证明了可观的收益。尽管表现出色,但他们依靠大量并行数据的可用性来微调查询和代码之间的语义映射。这限制了他们在特定于领域的语言中的实用性,并具有相对较少和昂贵的数据 ...
源代码的表示学习对于将机器学习应用于软件工程任务至关重要。从多语言源代码数据集中进行的学习代码表示比单语言数据集中的学习更有效,因为来自多语言数据集的更多培训数据可提高该模型从源代码中提取语言 - 敏捷信息的能力。但是,现有的多语言培训忽略了特定于语言的信息,这对于对不同编程语言进行建模源代码至关重要,同时只专注于学习具有不同语言之间共享参数的统一模型,以进行语言 - 语言信息信息建模 ...