大型语言模型(LLM)等大型语言的兴起已大大提高了自动代码的生成,从而提高了软件开发效率。但是,这引入了学术界的挑战,尤其是在区分人写的和LLM生成的代码方面,这使学术完整性问题变得复杂。现有的检测方法,例如预训练的模型和水印,面临适应性和计算效率的限制 ...
大型语言模型(LLM),例如OpenAI发布的ChatGpt,由于其展示的能力为各种任务生成高质量的内容,因此引起了行业和学术界的极大关注。尽管LLM具有令人印象深刻的能力,但人们对它们在新闻,教育和软件工程等各个领域的潜在风险越来越担心。最近,已经提出了一些商业和开源LLM生成的内容探测器,但是,该探测器主要用于检测自然语言内容而无需考虑程序代码的具体特征 ...
大型语言模型(LLM)在代码生成方面取得了显着进度。现在,确定代码是否为AI生成并确定所使用的特定模型至关重要,尤其是为了保护行业中的知识产权(IP),并防止在编程练习中作弊。为此,已经进行了几次尝试将水印插入机器生成的代码中 ...
这项工作提出了一种无培训的方法来检测LLMS生成的代码,从而减轻与其不加区分使用的风险。据我们所知,我们的研究是第一个研究零射击检测技术应用于Chatgpt等高级Black-Box LLM生成的代码的零射击技术。首先,我们发现现有的基于培训或零照片的文本检测器在检测代码方面无效,这可能是由于代码结构中发现的独特统计属性所致 ...
大型语言模型(LLMS)有可能产生构成滥用风险的文本,例如窃,在电子商务平台上种植虚假评论或创建炎症性虚假推文。因此,检测LLM产生的文本是否变得越来越重要。现有的高质量检测方法通常需要访问模型内部以提取内在特征 ...
在部署大型语言模型(LLMS)时,检索增强的生成(RAG)已变得无处不在,因为它可以解决典型的限制,例如生成幻觉或过时的信息。但是,当构建现实世界的破布应用时,会出现实际问题。首先,检索到的信息通常是特定于域的 ...
随着代码搜索渗透到软件开发中的大多数活动时,代码对代码搜索已出现以支持使用代码作为查询并在搜索结果中检索类似代码。应用程序包括用于重构的重复代码检测,用于修复程序修复的补丁标识和语言翻译。现有的代码对代码搜索工具依赖于静态相似性方法,例如 Token 和抽象语法树(AST)的比较到近似动态行为,从而导致精确度较低 ...
在各种应用(例如反向工程)中,对组件代码的分析和理解至关重要。但是,在组装代码中,低信息密度和缺乏明确的句法结构构成了重大挑战。通过促进自然语言互动的限制,采用蒙版语言建模(MLM)方法的开拓方法受到限制 ...
检索增强的一代使大型语言模型具有能够检索外部知识的能力,从而通过结合模型内在能力以外的信息来减轻幻觉。但是,大多数先前的作品都集中在确定性地调用检索上,这使其不适合诸如长期问题回答之类的任务。取而代之的是,只有在基础LLM缺乏所需知识的情况下,通过调用它可以进行动态执行检索才能更有效 ...
基于时空内存(STM)的视频对象细分(VOS)网络通常每几个框架都会增加内存库,这表现出出色的性能。但是,1)硬件无法承受随着视频长度的增加而不断增加的内存需求。 2)存储大量信息不可避免地会引入许多噪音,这不利于阅读内存库中最重要的信息 ...