尽管 LLM 的安全对齐技术发展迅速,但防御多轮越狱仍然是一项具有挑战性的任务。在本文中,我们进行了全面的比较,揭示了一些现有的防御方法可以提高LLM针对多轮越狱的鲁棒性,但会损害可用性,即降低通用能力或导致过度拒绝问题。从LLM机制可解释性的角度来看,我们发现这些方法未能建立准确区分安全和有害特征表示的边界。因此,接近有害表示的边界安全表示不可避免地会被破坏,导致可用性下降。为了解决这个问题,我们提出 X-Boundary 将有害表示远离边界安全表示并获得精确的区分边界。通过这种方式,可以精确地删除有害的表示,而不会破坏安全的表示。实验结果表明,X-Boundary实现了最先进的多轮越狱防御性能,同时降低了约20%的过度拒绝率,并保持了接近完整的通用能力。此外,我们从理论上证明并实证验证了 X-Boundary 可以加速训练过程中的收敛过程。请参阅我们的代码:此 https URL ...
白宫人工智能行政命令强调了大型语言模型 (LLM) 使恶意行为者能够开发生物、网络和化学武器的风险。为了衡量这些恶意使用的风险,政府机构和主要人工智能实验室正在对 LLM 的危险能力进行评估。然而,目前的评估是私人的,阻碍了降低风险的进一步研究。此外,他们只关注少数高度特定的恶意使用途径。为了填补这些空白,我们公开发布了大规模杀伤性武器代理 (WMDP) 基准,这是一个包含 3,668 个多项选择题的数据集,可作为生物安全、网络安全和化学安全方面危险知识的代理衡量标准。 WMDP 由学术界和技术顾问组成的联盟开发,并在公开发布之前经过严格过滤以消除敏感信息。 WMDP 有两个作用:第一,作为 LLM 中危险知识的评估;第二,作为消除此类危险知识的忘却方法的基准。为了指导忘却的进展,我们开发了 RMU,这是一种基于控制模型表示的最先进的忘却方法。 RMU 降低了 WMDP 上的模型性能,同时保持生物学和计算机科学等领域的一般能力,这表明遗忘可能是减少 LLM 恶意使用的具体途径。我们在此 https URL 公开发布我们的基准测试和代码 ...
大型语言模型(LLM)中的忘却旨在删除指定的数据,但其有效性通常是通过任务级指标(例如准确性和困惑度)来评估的。我们证明这些指标通常具有误导性,因为模型可能会忘记,而它们的原始行为可以通过最小的微调轻松恢复。这种\emph{可逆性}现象表明信息只是被抑制,而不是真正被删除。为了解决这个关键的评估差距,我们引入了\emph{表示级分析框架}。我们的工具包包括基于 PCA 的相似性和移位、中心核对齐 (CKA) 和 Fisher 信息,并辅以汇总指标(平均 PCA 距离)来测量代表性漂移。将这个框架应用于六种遗忘方法、三个数据域和两个 LLM ,我们根据\emph{可逆性}和\emph{灾难性}确定了四种不同的遗忘机制。我们的分析表明,实现理想状态——不可逆转的、非灾难性的遗忘——是非常具有挑战性的。通过探索遗忘的局限性,我们发现了一种看似不可逆的、有针对性的遗忘的情况,为设计更强大的擦除算法提供了新的见解。我们的研究结果揭示了当前评估实践中的根本差距,并为值得信赖的忘却奠定了代表性基础 ...
我们在大型语言模型 (LLM) 领域探索机器取消学习 (MU),称为 LLM 取消学习。该举措旨在消除不良数据影响(例如敏感或非法信息)和相关模型功能,同时保持基本知识生成的完整性并且不影响因果无关的信息。我们预计 LLM 的忘却学习将成为 LLM 生命周期管理的关键要素,有可能成为开发生成式人工智能的重要基础,这种人工智能不仅安全可靠、值得信赖,而且无需全面再培训即可实现资源高效利用。我们从概念表述、方法论、指标和应用中探索 LLM 中的遗忘景观。我们特别强调了现有 LLM 遗忘研究中经常被忽视的方面,例如遗忘范围、数据模型交互和多方面的效能评估。我们还建立了 LLM 反学习与模型编辑、影响函数、模型解释、对抗性训练和强化学习等相关领域之间的联系。此外,我们概述了 LLM 遗忘的有效评估框架,并探索其在版权和隐私保护以及减少社会技术危害方面的应用 ...
大型语言模型 (LLM) 越来越多地利用联邦学习 (FL) 来利用私有的、特定于任务的数据集进行微调,同时保护数据隐私。然而,虽然联合 LLM 框架可以在无需共享原始数据的情况下有效地实现协作培训,但它们严重缺乏内置的监管合规机制,例如 GDPR 的被遗忘权。集成私有数据加剧了对数据质量和长期治理的担忧,但现有的分布式培训框架没有提供有原则的方法来有选择地删除培训后的特定客户贡献。由于分布式数据孤岛、严格的隐私约束以及相互依赖的模型聚合的复杂性,联合 LLM 取消学习比集中式 LLM 取消学习要复杂得多。为了解决这一差距,我们引入了 Oblivionis,这是一个轻量级的学习和忘却框架,使客户能够在联合 LLM 培训期间有选择地删除特定的私人数据,从而增强可信度和监管合规性。通过将 FL 和取消学习统一为双重优化目标,我们结合了 6 种 FL 和 5 种取消学习算法进行综合评估和比较分析,为联合 LLM 取消学习建立了强大的管道。大量实验表明,Oblivionis 优于本地训练,在遗忘功效和模型效用之间实现了稳健的平衡,跨算法比较为未来 LLM 的发展提供了明确的方向 ...
大型语言模型 (LLM) 越来越多地集成到现实世界的应用程序中,引发了人们对隐私、安全性以及删除不良知识的需求的担忧。机器取消学习已成为一种有前途的解决方案,但面临两个关键挑战:(1) 实际的取消学习需求通常是连续的和异构的,(2) 它们涉及具有不对称访问的去中心化、敏感数据。这些因素导致了域间和域内的干扰,进一步放大了遗忘和保留性能不平衡的困境。作为回应,我们为 LLM 提出了一种可扩展且保护隐私的联合遗忘方法。我们的方法通过特定于任务的适配器学习来解耦遗忘和保留,并采用分层合并策略来减轻目标冲突,并实现强大的、适应性强的遗忘更新。对 WMDP、MUSE 和 TOFU 基准的综合实验表明,与基线方法相比,我们的方法可以有效处理异构遗忘请求,同时保持强大的 LLM 实用性 ...
联邦学习(FL)是一种流行的协作培训范例,它避免了客户端之间的直接数据暴露。然而,数据隐私问题仍然存在:FL 训练的大型语言模型能够记住并完成训练数据中包含的短语和句子(当给出前缀时)。因此,对抗性的和诚实但好奇的客户可以简单地通过有针对性的提示来恢复其他参与者的训练数据。在这项工作中,我们证明了一种流行且简单的微调策略,即低秩适应 (LoRA),可以将 FL 期间的记忆量减少多达 10 倍。我们通过执行医学问答微调任务并注入从外部临床数据集中提取的分布外敏感序列的多个副本来研究这种效果。我们观察到多种 Llama 2 和 3 模型的记忆量减少,并发现 LoRA 也可以减少集中学习中的记忆量。此外,我们还表明 LoRA 可以与其他隐私保护技术(例如梯度裁剪和高斯噪声、安全聚合和 Goldfish 损失)相结合,以在保持性能的同时进一步提高记录级隐私 ...
大型语言模型通常是根据从网络收集的数据集进行训练的,这些数据集可能会无意中包含有害或敏感的个人信息。为了解决日益增长的隐私问题,人们提出了消除学习方法来消除训练模型中特定数据的影响。其中,精确遗忘(在没有目标数据的情况下从头开始重新训练模型)被广泛认为是减轻部署中隐私风险的黄金标准。在本文中,我们在实际部署环境中重新审视了这一假设,其中公开了学习前和学习后 logits API,例如在开放权重场景中。针对这种设置,我们引入了一种新颖的数据提取攻击,该攻击利用来自学习前模型的信号来指导学习后模型,揭示反映已删除数据分布的模式。将模型指导与 Token 过滤策略相结合,我们的攻击在 MUSE、TOFU 和 WMDP 等常见基准测试中显着提高了提取成功率,在某些情况下性能提高了一倍。此外,我们在模拟医疗诊断数据集上展示了我们的攻击的有效性,以突出与精确遗忘相关的现实世界隐私风险。我们的研究结果表明,遗忘可能会以一种矛盾的方式增加现实世界部署期间隐私泄露的风险,因此我们主张对遗忘方法进行评估,以考虑更广泛的威胁模型,这些模型不仅考虑遗忘后模型,还考虑对先前检查点的对抗性访问。代码可在以下位置公开获取:此 https URL ...
2017 年推出的联邦学习 (FL) 促进了非信任方之间的协作学习,无需各方之间明确共享数据。这允许对用户数据进行模型训练,同时尊重 GDPR 和 CPRA 等隐私法规。然而,新出现的隐私要求可能会要求模型所有者能够\emph{忘记}一些学习到的数据,例如,当数据所有者或执法部门要求时。这催生了一个活跃的研究领域,称为\emph{机器取消学习}。在 FL 的背景下,许多为在集中设置中忘却学习而开发的技术并不是那么适用!这是由于集中式学习和分布式学习之间的独特差异,特别是 FL 中的交互性、随机性、异质性和有限的可访问性。作为回应,最近的工作重点是开发适合 FL 的遗忘机制。这篇 SoK 论文旨在深入研究 \emph{federated unlearning} 文献,旨在确定这一新兴领域的研究趋势和挑战。通过对 FL 取消学习(自 2020 年以来)上发表的论文进行仔细分类,我们的目标是查明联合取消学习的独特复杂性,强调直接应用集中式取消学习方法的局限性。我们比较了现有的关于影响消除和性能恢复的联合遗忘方法,比较了它们的威胁模型和假设,并讨论了它们的含义和局限性。例如,我们从多个角度分析 FL 去学习研究的实验设置,包括数据异质性及其模拟、用于演示的数据集和评估指标。我们的工作旨在为未来联合取消学习的研究提供见解和建议 ...
大型语言模型 (LLM) 的出现彻底改变了自然语言处理,使跨各种任务的高级理解和推理能力成为可能。针对特定领域对这些模型进行微调,特别是通过 LoRA 等参数高效微调 (PEFT) 策略,由于其效率而已成为一种普遍的做法。然而,这引起了重大的隐私和安全问题,因为模型可能会无意中保留和传播敏感或不需要的信息。为了解决这些问题,我们引入了一种新颖的实例级遗忘框架 LLMEraser,它系统地对遗忘任务进行分类,并使用影响函数应用精确的参数调整。与通常范围有限且需要大量再训练的传统忘却技术不同,LLMEraser 旨在处理广泛的忘却任务,而不会影响模型性能。对基准数据集的大量实验表明,LLMEraser 擅长有效管理各种遗忘场景,同时保持模型的整体完整性和有效性 ...