本文介绍了Rosemary,这是首个ML/Crypto CodeSign水印框架,该框架调节了LLM生成的代码,以避免侵犯知识产权和在软件开发中的不当滥用。高质量的水印符合可探测性的固定性三个主体由于代码的低渗透性质而受到限制。但是,水印验证通常需要揭示签名,并需要重新编码新的代码重复使用,这可能会损害系统的可用性 ...
目前,大型语言模型(LLM)广泛用于生成专业人士和学生的代码,激励开发工具,以检测LLM生成的代码,例如学术完整性和网络安全。我们将此作者归因问题作为二进制分类任务以及功能识别和提取。我们在各种尺寸的源代码组上提出了新的离散的嵌套BigRAM频率特征 ...
大型语言模型(LLM)彻底改变了代码生成,并以显着的效率自动化编程。但是,这些进步挑战了编程技能,道德和评估完整性,这使得发现LLM生成的代码对于维持问责制和标准至关重要。虽然对这个问题进行了一些研究,但它通常缺乏域覆盖范围和稳健性,仅涵盖了少量编程语言 ...
文本水印技术旨在标记和识别大语模型(LLMS)产生的内容,以防止滥用。在这项研究中,我们介绍了文本水印中跨语性一致性的概念,该概念评估了文本水印在被翻译成其他语言后保持其有效性的能力。两种LLM和三种水印方法的初步经验结果表明,当文本被翻译成各种语言时,当前的文本水印技术缺乏一致性 ...
GPT-4之类的大语言模型能力的最新进展引发了人们对我们检测AI生成文本的能力的日益关注。先前的工作建议通过明显改变输出分布来将水印嵌入到模型输出中。我们问:是否可以在不产生任何可检测到的变化的输出分布的情况下引入水印?为此,我们引入了一个具有密码启发的语言模型水印概念 ...
随着生成AI(Genai)技术的产出的提高,将它们与人类创建的内容区分开来变得越来越具有挑战性。水印方案是一种有前途的方法,可以解决区分AI和人类生成内容的问题。这些方案将隐藏的信号嵌入了AI生成的内容中,以实现可靠的检测 ...
代码水印在生成过程中通过将模式嵌入代码中来识别AI生成的代码。有效的水印需要满足两个关键条件:应可靠地检测到水印,并且该代码应保留其原始功能。但是,现有方法通常会修改对程序逻辑至关重要的 Token ,例如条件表达式中的关键字或算术计算中的运算符 ...
大型语言模型(LLMS)的最新进展引起了人们对知识产权保护的严重关注。恶意用户可以利用LLMS生成非常类似于原件的专有代码的释义版本。尽管LLM辅助代码释义的潜力不断增长,但检测其检测仍然有限的研究,强调了迫切需要检测系统 ...
大型语言模型(LLM)等大型语言的兴起已大大提高了自动代码的生成,从而提高了软件开发效率。但是,这引入了学术界的挑战,尤其是在区分人写的和LLM生成的代码方面,这使学术完整性问题变得复杂。现有的检测方法,例如预训练的模型和水印,面临适应性和计算效率的限制 ...
大型语言模型(LLM),例如OpenAI发布的ChatGpt,由于其展示的能力为各种任务生成高质量的内容,因此引起了行业和学术界的极大关注。尽管LLM具有令人印象深刻的能力,但人们对它们在新闻,教育和软件工程等各个领域的潜在风险越来越担心。最近,已经提出了一些商业和开源LLM生成的内容探测器,但是,该探测器主要用于检测自然语言内容而无需考虑程序代码的具体特征 ...