大型语言模型(LLMS)有可能产生构成滥用风险的文本,例如窃,在电子商务平台上种植虚假评论或创建炎症性虚假推文。因此,检测LLM产生的文本是否变得越来越重要。现有的高质量检测方法通常需要访问模型内部以提取内在特征 ...
在部署大型语言模型(LLMS)时,检索增强的生成(RAG)已变得无处不在,因为它可以解决典型的限制,例如生成幻觉或过时的信息。但是,当构建现实世界的破布应用时,会出现实际问题。首先,检索到的信息通常是特定于域的 ...
随着代码搜索渗透到软件开发中的大多数活动时,代码对代码搜索已出现以支持使用代码作为查询并在搜索结果中检索类似代码。应用程序包括用于重构的重复代码检测,用于修复程序修复的补丁标识和语言翻译。现有的代码对代码搜索工具依赖于静态相似性方法,例如 Token 和抽象语法树(AST)的比较到近似动态行为,从而导致精确度较低 ...
在各种应用(例如反向工程)中,对组件代码的分析和理解至关重要。但是,在组装代码中,低信息密度和缺乏明确的句法结构构成了重大挑战。通过促进自然语言互动的限制,采用蒙版语言建模(MLM)方法的开拓方法受到限制 ...
检索增强的一代使大型语言模型具有能够检索外部知识的能力,从而通过结合模型内在能力以外的信息来减轻幻觉。但是,大多数先前的作品都集中在确定性地调用检索上,这使其不适合诸如长期问题回答之类的任务。取而代之的是,只有在基础LLM缺乏所需知识的情况下,通过调用它可以进行动态执行检索才能更有效 ...
基于时空内存(STM)的视频对象细分(VOS)网络通常每几个框架都会增加内存库,这表现出出色的性能。但是,1)硬件无法承受随着视频长度的增加而不断增加的内存需求。 2)存储大量信息不可避免地会引入许多噪音,这不利于阅读内存库中最重要的信息 ...
神经程序嵌入最近对各种程序分析任务(包括程序综合,程序修复,故障定位等)表现出了很多希望。但是,大多数现有程序嵌入基于程序的句法特征,例如原始 Token 序列或抽象的语法树。与图像和文本不同,一个程序具有明确的语义含义,仅考虑其语法就很难捕获它(i ...
尽管许多NLP系统中的第一步之一是选择要使用的预训练的单词嵌入式,但我们认为,这样的步骤最好让神经网络自己弄清楚。为此,我们介绍了动态元安装,这是一种简单而有效的方法,用于监督嵌入合奏的学习,这导致了各种任务的同一模型类别中的最新性能。随后,我们展示了该技术如何用于对NLP系统中单词嵌入的使用进行新的启示 ...
我们为时间戳记的文本数据提供了一个概率语言模型,该模型随着时间的流逝跟踪单个单词的语义演变。该模型通过嵌入空间中的潜在轨迹表示单词和上下文。在每时每刻,嵌入向量都是从word2vec的概率版本中推断出的[mikolov等人 ...
最近,以广泛的未标记编程语言数据以自制的方式培训的大型代码生成模型取得了巨大的成功。尽管这些模型获得了大量的代码知识,但它们在理解任务(例如代码搜索和克隆检测)方面表现较差,因为它们是专门培训的。预先培训大量代码数据的较大的纯编码体系结构模型可以提高理解性能 ...