自我监督学习的最新进展极大地改善了各种各样的任务。但是,语言模型预训练的研究主要集中在自然语言上,目前尚不清楚伯特(Bert)及其变体等模型在应用于其他模式(例如源代码)时是否提供最佳的预训练。在本文中,我们引入了一个新的预训练目标DOBF,该目标利用编程语言的结构方面和预训练的模型来恢复原始版本的混淆源代码 ...

0 0 0 0 2025/04/01 arXiv:2102.07492v3 15966829631

适当的代码评估指标(CEM)深刻影响代码生成的演变,这是自然语言处理和软件工程的一个重要研究领域。流行的基于匹配的 CEM(例如 ...

0 0 0 0 2025/04/01 arXiv:2301.09043v4 15966829631

自动生成代码提交的高质量提交消息可以实质上促进软件开发人员的作品和协调。但是,源代码和自然语言之间的语义差距对该任务构成了重大挑战。已经提出了几项研究以减轻挑战,但没有明确涉及在提交消息生成期间代码上下文信息 ...

0 0 0 0 2025/03/31 arXiv:2007.06934v3 15966829631

软件工程(SE)的机器学习(ML)由于能够显着提高各种SE应用的性能而获得了突出性。这种进度在很大程度上归因于有效捕获代码的句法和语义特征的可推广源代码表示的开发。近年来,受自然语言处理(NLP)启发的预训练的基于 Transformer 的模型在SE任务中取得了显着的成功 ...

0 0 0 0 2025/03/31 arXiv:2411.14611v1 15966829631

语法是编程语言和软件工程的基石,提供了框架来定义句法空间和程序结构。现有的研究表明,基于语法的代码表示在小型模型中的有效性,显示了它们减少语法错误并提高性能的能力。但是,随着语言模型的规模扩展到十亿或以上,语法级别的错误变得罕见,因此尚不清楚语法信息是否仍然提供性能优势 ...

0 0 0 0 2025/03/31 arXiv:2503.05507v1 15966829631

AI驱动的二进制代码相似性检测(BINSD)已将复杂的二进制代码比较与通过神经网络嵌入的代码的距离度量进行比较,已广泛应用于程序分析。但是,由于采用的嵌入策略,评估方法,跑步环境和/或基准的多样性,很难在多大程度上解决BINSD问题的解决方案,尤其是在现实世界应用中。此外,缺乏对日益复杂的嵌入神经网络和各种评估方法的深入研究已成为阻碍AI驱动的BINSD发展的关键因素 ...

0 0 0 0 2025/03/31 arXiv:2410.07537v1 15966829631

这项研究旨在评估在代码克隆检测任务中,两种高级大语模型(LLMS),GPT-3.5和GPT-4的性能。该评估涉及在不同的克隆类型和相似性水平的各种代码对中测试模型,该模型来自两个数据集:BigCloneBench(人制)和GPTCloneBench(LLM生成) ...

0 0 0 0 2025/03/31 arXiv:2407.02402v1 15966829631

尽管大型语言模型为软件开发提供了很大的便利,但它们可以导致求职和学生作业中的道德问题。因此,确定一块代码是由人类编写还是由人工智能(AI)模型创建的代码是一个关键问题。在这项研究中,我们提出了Aigcodeset,其中包括2 ...

0 0 0 0 2025/03/31 arXiv:2412.16594v2 15966829631

大型语言模型生成的代码(LLMGCODE)在软件开发中变得越来越普遍。许多研究报告说,LLMGCODE比人为代码(HaCode)具有更多的质量和安全问题。 llmgcode通常在代码更改中与Hacode混合,而更改仅由人类开发人员签名,而无需仔细检查 ...

0 0 0 0 2025/03/31 arXiv:2412.16525v1 15966829631

随着基于LLM的代码完成者(例如GitHub Copilot)的日益普及,在自动检测AI生成的代码的兴趣也在增加,在这种情况下,在这种情况下,使用LLMS禁止使用LLMS进行编程的情况下,由于安全性,知识产权或伦理性而导致的HTTP url源于AI代码的编码,以确定性的众多技术来划分,以确定AI代码的编码,从而依赖于AI代码,以确定能力,从而依赖于AI代码的范围。人类,基于基于 Transformer 的编码器分类器 ...

0 0 0 0 2025/03/31 arXiv:2412.14611v1 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)