大型语言模型的日益普及引起了人们对滥用人工智能生成文本(AIGT)的担忧。建立一种优秀的、具有高泛化性和鲁棒性的AIGT检测方法变得越来越重要。然而,现有的方法要么关注模型泛化,要么关注鲁棒性。同时解决泛化性和鲁棒性挑战的统一机制的探索较少。在本文中,我们认为鲁棒性可以被视为域转移的一种特定形式,并凭经验揭示了 AIGT 检测任务模型泛化的内在机制。然后,我们提出了一种新颖的 AIGT 检测方法(DP-Net),该方法通过具有精心设计的奖励和动作的强化学习引入的动态扰动。实验上,大量结果表明,在三种跨域场景中,所提出的 DP-Net 的泛化能力显着优于一些最先进的 AIGT 检测方法。同时,DP-Net 在两次文本对抗攻击下实现了最佳的鲁棒性。该代码可通过此 https URL 公开获取 ...

0 0 0 0 2025/12/01 arXiv:2504.21019v2 15966829631

ChatGPT、DeepSeek 和 Claude 等大型语言模型 (LLM) 的快速发展显着增加了人工智能生成文本在数字通信中的存在。这一趋势更加需要可靠的检测方法来区分人类创作的内容和机器生成的内容。现有的零样本方法和监督分类器在很大程度上将此任务概念化为二元分类问题,通常导致跨领域和模型的泛化能力较差。在本文中,我们认为这种二元表述通过假设人类书写文本的连贯表示从根本上错误地描述了检测任务。实际上,人类文本并不构成统一的分布,并且通过有限的采样无法有效捕获其多样性。这导致以前的分类器记住观察到的 OOD 特征,而不是学习“非 ID”行为的本质,​​从而限制了对看不见的人类创作输入的泛化。基于这一观察,我们建议将检测任务重新定义为分布外(OOD)检测问题,将人类编写的文本视为分布异常值,而机器生成的文本则视为分布内(ID)样本。为此,我们开发了一个检测框架,使用包括 DeepSVDD 和 HRN 在内的一类学习方法,以及基于分数的学习技术(例如基于能量的方法),从而实现稳健且可泛化的性能。跨多个数据集的广泛实验验证了我们基于 OOD 的方法的有效性。具体来说,基于 OOD 的方法在 DeepFake 数据集上实现了 98.3% 的 AUROC 和 AUPR,而 FPR95 仅达到 8.9%。此外,我们在多语言、受攻击、未见过的模型和域文本设置上测试我们的检测框架,证明了我们框架的稳健性和通用性。代码、预训练权重和演示将被发布 ...

0 0 0 0 2025/11/28 arXiv:2510.08602v1 15966829631

在医学和法律等专业和高风险领域检测 LLM 生成的文本对于打击错误信息和确保真实性至关重要。然而,当前的零样本检测器虽然对一般文本有效,但由于域转移而应用于专门内容时常常会失败。我们提供的理论分析表明,这种失败从根本上与人类、检测器和源文本分布之间的 KL 散度有关。为了解决这个问题,我们提出了 DivScore,这是一种零样本检测框架,使用标准化的基于熵的评分和领域知识蒸馏来稳健地识别专业领域中 LLM 生成的文本。我们还发布了医疗和法律领域 LLM 生成的文本检测的特定领域基准。我们基准测试的实验表明,DivScore 始终优于最先进的检测器,AUROC 提高 14.4%,召回率提高 64.0%(误报率阈值 0.1%)。在对抗性环境中,DivScore 表现出比其他基线优越的鲁棒性,在 AUROC 方面平均领先 22.8%,在召回率方面平均领先 29.5%。代码和数据是公开的 ...

0 0 0 0 2025/11/26 arXiv:2506.06705v1 15966829631

大型语言模型 (LLM) 的滥用会带来潜在风险,从而推动机器生成文本 (MGT) 检测的发展。现有文献主要集中于二进制、文档级检测,从而忽略了由人类和 LLM 共同贡献的文本。因此,本文探讨了人类与人工智能共同创作下细粒度 MGT 检测的可能性。我们建议细粒度检测器可以为具有数字 AI 比率的共同创作文本检测铺平道路。具体来说,我们提出了一个数据集 HACo-Det,它通过带有单词级归因标签的自动管道生成人类与人工智能共同创作的文本。我们改进了七个流行的文档级检测器,将它们推广到单词级检测。然后我们在 HACo-Det 上的单词和句子级别检测任务上评估这些检测器。实证结果表明,基于度量的方法很难以 0.462 的平均 F1 分数进行细粒度检测,而微调模型则显示出卓越的性能和更好的跨领域泛化能力。然而,我们认为细粒度的共同创作文本检测还远未解决。我们进一步分析影响性能的因素,例如上下文窗口,并强调当前方法的局限性,指出潜在的改进途径 ...

0 0 0 0 2025/11/26 arXiv:2506.02959v1 15966829631

大型语言模型的快速发展引起了人们对其可能被恶意行为者滥用的严重担忧。因此,开发有效的探测器来减轻这些风险已成为当务之急。然而,现有的检测方法大多过于注重检测准确性,往往忽视了高误报率(FPR)带来的社会风险。本文通过利用保形预测(CP)来解决这个问题,它有效地限制了 FPR 的上限。直接应用CP虽然会限制FPR,但也会导致检测性能显着下降。为了克服这种权衡,本文提出了一种通过多尺度共形预测(MCP)的零样本机器生成文本检测框架,该框架既强制执行 FPR 约束,又提高了检测性能。本文还介绍了 RealDet,这是一个跨越广泛领域的高质量数据集,可确保真实的校准并在与 MCP 结合时实现卓越的检测性能。实证评估表明,MCP 有效地限制了 FPR,显着增强了检测性能,并提高了针对多个检测器和数据集的对抗性攻击的鲁棒性 ...

0 0 0 0 2025/11/26 arXiv:2505.05084v2 15966829631

大型语言模型 (LLM) 在用于生成非事实内容并大规模传播虚假信息时会带来重大风险。检测此类 LLM 生成的内容至关重要,但当前的检测器通常难以在开放世界环境中进行泛化。我们介绍 Learning2Rewrite,这是一种新颖的框架,用于检测人工智能生成的文本,并对未见过的领域具有出色的泛化能力。我们的方法利用了这样的见解: LLM 在执行重写任务时,本质上对人工智能生成的内容的修改少于人类编写的文本。通过训练 LLM 以尽量减少对人工智能生成的输入的更改,我们放大了这种差异,从而在不同的文本分布中产生了更可区分和更通用的编辑距离。对来自 21 个独立领域和四个主要 LLM(GPT-3.5、GPT-4、Gemini 和 Llama-3)的数据进行的广泛实验表明,我们的检测器在 AUROC 中的分布内测试中比最先进的检测方法高出 23.04%,在分布外测试中高出 37.26%,在对抗性攻击下高出 48.66%。在利用相同数量的参数时,与直接分类训练相比,我们独特的训练目标确保了更好的通用性。我们的研究结果表明,加强 LLM 固有的重写倾向为检测人工智能生成的文本提供了强大且可扩展的解决方案 ...

0 0 0 0 2025/11/26 arXiv:2408.04237v2 15966829631

机器生成的文本(MGT)检测对于调节和归因于在线文本至关重要。尽管现有的MGT检测器达到了强大的性能,但它们仍然容易受到简单的扰动和对抗性攻击的影响。为了制定针对恶意扰动的有效辩护,我们从威胁建模的角度查看了MGT检测,也就是说,从对手的角度分析模型的脆弱性并探索有效的缓解 ...

0 0 0 0 2025/11/26 arXiv:2502.12734v2 15966829631

随着最近对大型语言模型(LLM)的关注,StarCoder(Li 等人,2023)和 Code Llama(Rozière 等人,2023)在代码生成方面都表现出了出色的性能。然而,仍然需要通过有效的训练技术来改进代码翻译功能。为此,我们推出了 SteloCoder,这是一种基于 StarCoder 的纯解码器,专为多编程语言到 Python 代码翻译而设计。特别是,SteloCoder 无需指定输入编程语言即可实现 C++、C#、JavaScript、Java 或 PHP 到 Python 的代码转换。我们通过合并专家混合 (MoE) 技术修改了 StarCoder 模型架构,该技术具有五名专家和用于多任务处理的门控网络。专家是通过StarCoder微调获得的。具体来说,我们使用低秩自适应方法 (LoRA) 技术,将每个 Expert 大小限制为 StarCoder 参数数量的 0.06%。同时,为了提高时间上的训练效率,我们采用课程学习策略,利用自指导数据进行高效微调。因此,每位专家只需 6 小时即可在一个 80Gb A100 HBM 上进行培训。通过在 XLCoST 数据集上的实验,SteloCoder 在多编程语言到 Python 的翻译中平均获得了 73.76 的 CodeBLEU 分数,比排行榜上的最高表现至少高出了 3.5 分。这一成就归功于以 StarCoder 为骨干的 45M 额外参数以及在 80GB A100 HBM 上进行的 32 小时有效训练。源代码在这里发布:https URL ...

0 0 0 0 2025/11/25 arXiv:2310.15539v2 15966829631

由于资源密集型训练,基础模型更新缓慢,而特定领域模型在版本之间快速发展。模型合并旨在将多个专家模型组合成一个功能更强大的模型,降低存储和服务成本,同时支持去中心化开发。尽管具有潜力,但之前的研究主要集中在合并视觉分类模型或大型语言模型(LLM)以执行代码和数学任务。最近,通过大规模多模式培训扩展 LLM 的多模式 LLM (MLLM)受到关注。然而,模型融合研究缺乏一个基准来明确划分 MLLM 训练和评估的任务。在本文$\textbf{(i)}$中,我们介绍了MLLM的模型合并基准,其中包括VQA、Geometry、Chart、OCR和Grounding等多项任务,同时研究LoRA和完整的微调模型。此外,我们探索模型合并如何结合不同的模态(例如,视觉语言、音频语言和视频语言模型),向全语言模型迈进。 $\textbf{(ii)}$ 我们在基准测试上实现了 10 种模型合并算法。此外,我们提出了一种新颖的方法,可以消除任务向量中的噪声,并根据任务向量交互定义的损失稳健地优化合并向量,实现平均性能增益 2.48%。 $\textbf{(iii)}$ 我们发现模型合并提供了一种无需训练数据即可构建改进的 MLLM 的有前途的方法。我们的结果还表明,多种模式之间的互补性优于单个模式 ...

0 0 0 0 2025/11/25 arXiv:2505.19892v2 15966829631

视觉语言模型(VLM)在多模式任务中取得了显着的进步,但是它们经常在视觉算术,看似简单的功能(例如对象计数或长度比较)上挣扎,这对于相关的复杂任务(例如图表理解和几何理解和几何推理)至关重要。在这项工作中,我们首先通过一系列探测任务,重点关注基本的视觉算术。我们的分析表明,尽管预训练的视力编码通常会捕获足够的信息,但文本解码器通常无法正确解码算术推理 ...

0 0 0 0 2025/11/25 arXiv:2502.11492v3 15966829631