近似忘却作为一种有效更新 LLM 的方法而受到欢迎,因此它的行为(大致)就像没有在数据子集上进行过训练一样。然而,现有的方法在实践中很脆弱,很容易受到攻击而泄露所谓的未学过的信息。为了缓解近似遗忘的问题,我们提出了 SIFT-Masks(SIgn-Fixed Tuning-Masks),这是一种基于模型合并的精确遗忘方法。 SIFT-Masks 解决了标准模型合并的两个关键限制:(1)合并大量任务会严重损害效用; (2)通过跨任务共享额外信息来提高效用的方法使得精确遗忘的成本过高。 SIFT-Masks 通过以下方式解决了这些问题:(1) 应用局部掩模来恢复特定于任务的性能; (2) 约束微调以与全局符号向量对齐,作为在合并之前独立确定掩模的轻量级方法。在我们合并多达 500 个模型的四种设置中,SIFT-Masks 比简单合并提高了 5-80% 的准确度,并且与其他合并基线相比,精确取消学习所需的计算量减少了 250 倍 ...
迁移学习——即在下游任务上进一步微调预训练模型——可以带来显着的优势,包括改进的下游性能、更快的收敛和更好的样本效率。这些优点导致了针对特定任务的微调模型的激增,这些模型通常只能执行一项任务并且不能相互受益。最近,模型合并技术作为一种解决方案出现,将多个特定于任务的模型组合成单个多任务模型,而无需执行额外的训练。然而,现有的合并方法往往忽略了不同模型参数之间的干扰,导致合并多个模型时性能大幅下降。在本文中,我们证明了先前的合并技术由于两个主要干扰源而无意中丢失了有价值的信息:(a)由于冗余参数值引起的干扰;(b)跨模型给定参数值的符号不一致。为了解决这个问题,我们提出了我们的方法 TRIM、ELECT SIGN & MERGE (TIES-Merging),它在合并模型时引入了三个新颖的步骤:(1) 重置在微调期间仅改变少量的参数,(2) 解决符号冲突,以及 (3) 仅合并与最终商定的符号一致的参数。我们发现 TIES-Merging 在不同的设置中优于几种现有方法,涵盖一系列模式、领域、任务数量、模型大小、架构和微调设置。我们进一步分析了不同类型的干扰对模型参数的影响,并强调了解决符号干扰的重要性。我们的代码可在此 https URL 获取 ...
多任务学习(MTL)旨在使模型能够同时处理多个任务。最近一项称为任务算术的发展表明,多个模型(每个模型都针对不同的任务进行了微调)可以直接合并到单个模型中以执行 MTL,而无需使用初始训练数据进行重新训练过程。然而,这种直接添加模型通常会导致合并模型的整体性能显着恶化。这种下降是由于多个任务之间潜在的冲突和复杂的相关性造成的。因此,出现了如何在不使用原始训练数据的情况下更有效地合并预训练模型的挑战。本文介绍了一种称为自适应模型合并(AdaMerging)的创新技术。这种方法旨在以任务方式或分层方式自主学习模型合并的系数,而不依赖于原始训练数据。具体来说,我们的 AdaMerging 方法作为自动、无监督任务算术方案运行。它利用来自多任务设置的未标记测试样本的熵最小化作为代理目标函数来迭代地细化多个模型的合并系数。我们在八项任务中的实验结果证明了我们提出的 AdaMerging 方案的有效性。与当前最先进的任务算术合并方案相比,AdaMerging 的性能显着提高了 11%。值得注意的是,AdaMerging 在应用于看不见的下游任务时还表现出卓越的泛化能力。此外,它对测试阶段可能发生的数据分布变化显示出显着增强的稳健性 ...
我们推出了 ChatScene,这是一种基于大型语言模型 (LLM) 的代理,它利用 LLM 的功能为自动驾驶汽车生成安全关键场景。给定非结构化语言指令,代理首先使用 LLM 生成文本描述的交通场景。这些场景描述随后被分解为多个子描述,用于指定细节,例如车辆的行为和位置。然后,代理将文本描述的子场景独特地转换为特定于领域的语言,然后在模拟器中生成用于预测和控制的实际代码,从而促进在 CARLA 模拟环境中创建多样化且复杂的场景。我们的代理的关键部分是一个全面的知识检索组件,它通过训练包含场景描述和代码对的知识数据库,有效地将特定的文本描述转换为相应的特定领域的代码片段。大量的实验结果强调了 ChatScene 在提高自动驾驶汽车安全性方面的功效。例如,当针对不同的基于强化学习的自我车辆进行测试时,ChatScene 生成的场景显示,与最先进的基线相比,碰撞率增加了 15%。此外,我们还表明,通过使用我们生成的安全关键场景来微调不同的基于 RL 的自动驾驶模型,它们可以将碰撞率降低 9%,超过了当前的 SOTA 方法。 ChatScene 有效地弥合了交通场景的文本描述和实际 CARLA 模拟之间的差距,提供了一种统一的方法来方便地生成安全关键场景,以进行自动驾驶汽车的安全测试和改进 ...
将工具使用集成到大型语言模型 (LLM) 中,使代理系统能够对现实世界产生影响。与此同时,与独立的 LLM 不同,受感染的代理可以执行恶意工作流程,产生更严重的影响,这可以通过其工具使用能力来体现。我们提出了AgentGuard,一个自动发现和验证不安全的工具使用工作流程的框架,然后生成安全约束来限制代理的行为,实现部署时安全保证的基线。 AgentGuard 利用 LLM 协调器的固有功能(工具功能知识、可扩展且现实的工作流程生成以及工具执行权限)来充当自己的安全评估器。该框架通过四个阶段运行:识别不安全的工作流程、在现实执行中验证它们、生成安全约束以及验证约束效力。输出是包含不安全工作流程、测试用例和经过验证的约束的评估报告,可支持多个安全应用程序。我们通过实验实证证明了 AgentGuard 的可行性。通过这项探索性工作,我们希望能够启发LLM代理人建立标准化测试和强化程序,以增强他们在实际应用中的可信度 ...
大型语言模型 (LLM) 为多智能体网络中的节点提供了智能,在学术界和工业界显示出日益增长的应用。然而,如何防止这些网络生成恶意信息仍有待探索,之前对单一 LLM 安全性的研究难以转移。在本文中,我们从拓扑角度关注多智能体网络的安全性,研究哪些拓扑特性有助于更安全的网络。为此,我们提出了一个通用框架 NetSafe 以及迭代的 RelCom 交互,以统一现有的各种基于 LLM 的代理框架,为广义拓扑安全研究奠定基础。当多智能体网络受到涉及错误信息、偏见和有害信息的攻击时,我们发现了几个关键现象,称为智能体幻觉和聚合安全。此外,我们发现高度连接的网络更容易受到对抗性攻击的传播,星图拓扑中的任务性能下降了 29.7%。此外,我们提出的静态指标比传统的图论指标更符合现实世界的动态评估,这表明与攻击者平均距离较大的网络表现出更高的安全性。总之,我们的工作引入了关于基于 LLM 的多智能体网络安全性的新拓扑视角,并发现了一些未报告的现象,为未来探索此类网络安全性的研究铺平了道路 ...
尽管在道德一致性方面进行了广泛的预培训以防止生成有害信息,但大型语言模型(LLM)仍然容易受到越狱攻击。在本文中,我们提出了 AutoDefense,这是一种多代理防御框架,可以过滤来自 LLM 的有害响应。通过响应过滤机制,我们的框架对于不同的越狱攻击提示具有鲁棒性,并且可以用于防御不同的受害者模型。 AutoDefense为LLM代理分配不同的角色,并利用它们协同完成防御任务。任务的划分增强了 LLM 的整体指令遵循能力,并能够将其他防御组件集成为工具。借助 AutoDefense,小型开源 LM 可以充当代理并保护较大的模型免受越狱攻击。我们的实验表明,AutoDefense 可以有效防御不同的越狱攻击,同时保持正常用户请求的性能。例如,我们使用 LLaMA-2-13b 和 3-agent 系统,将 GPT-3.5 上的攻击成功率从 55.74% 降低到 7.95%。我们的代码和数据可通过此 https URL 公开获取 ...
过去两年,大型语言模型 (LLM) 的使用发展迅速。虽然这些 LLM 提供了相当大的便利,但它们也引起了安全问题,因为 LLM 很容易受到一些精心设计的文本扰动的对抗性攻击。在本文中,我们介绍了一种名为大型语言模型哨兵(LLAMOS)的新型防御技术,该技术旨在通过在将对抗性文本示例输入目标 LLM 之前纯化它们来增强 LLM 的对抗鲁棒性。我们的方法包括两个主要部分:a)代理指令,它可以模拟新的代理进行对抗性防御,在防御攻击的同时改变最少的字符以保持句子的原始含义; b) 防御指导,提供修改干净或对抗性示例的策略,以确保目标 LLM 的有效防御和准确输出。值得注意的是,即使没有从对抗性例子中学习,防御代理也表现出了强大的防御能力。此外,我们进行了一项有趣的对抗性实验,我们开发了两种代理,一种用于防御,一种用于攻击,并使它们相互对抗。在对抗性互动中,两个智能体都没有完全击败对方。对开源和闭源 LLM 的大量实验表明,我们的方法可以有效防御对抗性攻击,从而增强对抗性鲁棒性 ...
尽管 LLM 的安全对齐技术发展迅速,但防御多轮越狱仍然是一项具有挑战性的任务。在本文中,我们进行了全面的比较,揭示了一些现有的防御方法可以提高LLM针对多轮越狱的鲁棒性,但会损害可用性,即降低通用能力或导致过度拒绝问题。从LLM机制可解释性的角度来看,我们发现这些方法未能建立准确区分安全和有害特征表示的边界。因此,接近有害表示的边界安全表示不可避免地会被破坏,导致可用性下降。为了解决这个问题,我们提出 X-Boundary 将有害表示远离边界安全表示并获得精确的区分边界。通过这种方式,可以精确地删除有害的表示,而不会破坏安全的表示。实验结果表明,X-Boundary实现了最先进的多轮越狱防御性能,同时降低了约20%的过度拒绝率,并保持了接近完整的通用能力。此外,我们从理论上证明并实证验证了 X-Boundary 可以加速训练过程中的收敛过程。请参阅我们的代码:此 https URL ...
白宫人工智能行政命令强调了大型语言模型 (LLM) 使恶意行为者能够开发生物、网络和化学武器的风险。为了衡量这些恶意使用的风险,政府机构和主要人工智能实验室正在对 LLM 的危险能力进行评估。然而,目前的评估是私人的,阻碍了降低风险的进一步研究。此外,他们只关注少数高度特定的恶意使用途径。为了填补这些空白,我们公开发布了大规模杀伤性武器代理 (WMDP) 基准,这是一个包含 3,668 个多项选择题的数据集,可作为生物安全、网络安全和化学安全方面危险知识的代理衡量标准。 WMDP 由学术界和技术顾问组成的联盟开发,并在公开发布之前经过严格过滤以消除敏感信息。 WMDP 有两个作用:第一,作为 LLM 中危险知识的评估;第二,作为消除此类危险知识的忘却方法的基准。为了指导忘却的进展,我们开发了 RMU,这是一种基于控制模型表示的最先进的忘却方法。 RMU 降低了 WMDP 上的模型性能,同时保持生物学和计算机科学等领域的一般能力,这表明遗忘可能是减少 LLM 恶意使用的具体途径。我们在此 https URL 公开发布我们的基准测试和代码 ...