检测AI生成的代码,深击和其他合成内容是一项新兴的研究挑战。随着大语言模型(LLM)生成的代码变得越来越普遍,确定每个样本背后的特定模型越来越重要。本文介绍了C计划的LLM作者身份归因的首次系统研究 ...
大型语言模型(LLM)的能力越来越多,引起了人们对AI生成的窃和社会工程学的滥用的担忧。尽管已经提出了各种AI生成的文本检测器来减轻这些风险,但许多探测器仍然容易受到简单的逃避技术的影响,例如释义。但是,最近的探测器对这种基本攻击表现出更大的鲁棒性 ...
大型语言模型的恶意使用的增加,例如虚假的内容创建和学术窃,激发了识别AI生成的文本的方法的发展,包括基于水印或离群值检测的方法。但是,这些检测算法对AI生成的文本的释义的鲁棒性尚不清楚。为了测试这些探测器,我们构建了一个11B参数解释模型(Dipper),该模型可以解释段落,周围环境的条件以及控制词汇多样性和内容重新排序 ...
可扩展矢量图形 (SVG) 因其分辨率的无限可扩展性、多功能可用性和编辑功能而成为现代图像渲染应用程序中不可或缺的一部分。 SVG 在网页开发和图形设计领域特别受欢迎。使用深度学习进行 SVG 建模的现有方法通常难以生成复杂的 SVG,并且仅限于需要大量处理和简化的简单模型 ...
尽管事实证明,预先训练的语言模型对学习高质量的语义表示有用,但这些模型仍然容易受到简单的扰动的影响。最近的作品旨在提高预训练模型的鲁棒性,主要集中于具有类似语义的扰动示例的对抗训练,从而忽略了对不同语义甚至相反语义的利用。与图像处理字段不同,文本是离散的,很少有单词替换会导致大量的语义变化 ...
大型语言模型(LLMS)通常在可视化任务中遇到的努力,例如绘制图,图表,成功取决于代码正确性和视觉语义。现有的指令调查数据集缺乏执行的监督,并为迭代代码校正提供了有限的支持,从而导致脆弱且不可靠的情节生成。我们提出了Viscode-200k,这是一种用于基于Python的可视化和自我纠正的大规模指令调整数据集 ...
检测现代大型语言模型生成的文本被认为很困难,因为 LLM 和人类都可以表现出各种复杂的行为。然而,我们发现基于对比两种密切相关的语言模型的分数在区分人类生成的文本和机器生成的文本方面非常准确。基于这种机制,我们提出了一种新颖的 LLM 检测器,只需要使用一对预先训练的 LLM 进行简单的计算 ...
由于发展了更有效的对比学习方法,因此无监督的学习最近取得了出色的进步。但是,CNN容易依赖于人类认为非语义的低级特征。这种依赖性已被猜想引起对图像扰动或域移位缺乏鲁棒性 ...
本文介绍了超透明原型网络,该网络将分类和回归统一使用超透明输出空间上的原型。对于分类,一种常见的方法是将原型定义为每班训练示例的平均输出向量。在这里,我们建议将Hyperpheres用作输出空间,而类原型定义了较大的边距分离的先验 ...
图对比学习(GCL)旨在通过对齐正对和分离负对来学习节点表示。然而,很少有研究人员关注基于图的学习中使用的特定增强背后的内在规律。什么样的增强将有助于下游性能,对比学习实际上如何影响下游任务,以及为什么增强的幅度如此重要?本文试图通过建立增强和下游性能之间的联系来解决这些问题 ...