大型语言模型(LLM)中的忘却旨在删除指定的数据,但其有效性通常是通过任务级指标(例如准确性和困惑度)来评估的。我们证明这些指标通常具有误导性,因为模型可能会忘记,而它们的原始行为可以通过最小的微调轻松恢复。这种\emph{可逆性}现象表明信息只是被抑制,而不是真正被删除。为了解决这个关键的评估差距,我们引入了\emph{表示级分析框架}。我们的工具包包括基于 PCA 的相似性和移位、中心核对齐 (CKA) 和 Fisher 信息,并辅以汇总指标(平均 PCA 距离)来测量代表性漂移。将这个框架应用于六种遗忘方法、三个数据域和两个 LLM ,我们根据\emph{可逆性}和\emph{灾难性}确定了四种不同的遗忘机制。我们的分析表明,实现理想状态——不可逆转的、非灾难性的遗忘——是非常具有挑战性的。通过探索遗忘的局限性,我们发现了一种看似不可逆的、有针对性的遗忘的情况,为设计更强大的擦除算法提供了新的见解。我们的研究结果揭示了当前评估实践中的根本差距,并为值得信赖的忘却奠定了代表性基础 ...
我们在大型语言模型 (LLM) 领域探索机器取消学习 (MU),称为 LLM 取消学习。该举措旨在消除不良数据影响(例如敏感或非法信息)和相关模型功能,同时保持基本知识生成的完整性并且不影响因果无关的信息。我们预计 LLM 的忘却学习将成为 LLM 生命周期管理的关键要素,有可能成为开发生成式人工智能的重要基础,这种人工智能不仅安全可靠、值得信赖,而且无需全面再培训即可实现资源高效利用。我们从概念表述、方法论、指标和应用中探索 LLM 中的遗忘景观。我们特别强调了现有 LLM 遗忘研究中经常被忽视的方面,例如遗忘范围、数据模型交互和多方面的效能评估。我们还建立了 LLM 反学习与模型编辑、影响函数、模型解释、对抗性训练和强化学习等相关领域之间的联系。此外,我们概述了 LLM 遗忘的有效评估框架,并探索其在版权和隐私保护以及减少社会技术危害方面的应用 ...
大型语言模型 (LLM) 越来越多地利用联邦学习 (FL) 来利用私有的、特定于任务的数据集进行微调,同时保护数据隐私。然而,虽然联合 LLM 框架可以在无需共享原始数据的情况下有效地实现协作培训,但它们严重缺乏内置的监管合规机制,例如 GDPR 的被遗忘权。集成私有数据加剧了对数据质量和长期治理的担忧,但现有的分布式培训框架没有提供有原则的方法来有选择地删除培训后的特定客户贡献。由于分布式数据孤岛、严格的隐私约束以及相互依赖的模型聚合的复杂性,联合 LLM 取消学习比集中式 LLM 取消学习要复杂得多。为了解决这一差距,我们引入了 Oblivionis,这是一个轻量级的学习和忘却框架,使客户能够在联合 LLM 培训期间有选择地删除特定的私人数据,从而增强可信度和监管合规性。通过将 FL 和取消学习统一为双重优化目标,我们结合了 6 种 FL 和 5 种取消学习算法进行综合评估和比较分析,为联合 LLM 取消学习建立了强大的管道。大量实验表明,Oblivionis 优于本地训练,在遗忘功效和模型效用之间实现了稳健的平衡,跨算法比较为未来 LLM 的发展提供了明确的方向 ...
大型语言模型 (LLM) 越来越多地集成到现实世界的应用程序中,引发了人们对隐私、安全性以及删除不良知识的需求的担忧。机器取消学习已成为一种有前途的解决方案,但面临两个关键挑战:(1) 实际的取消学习需求通常是连续的和异构的,(2) 它们涉及具有不对称访问的去中心化、敏感数据。这些因素导致了域间和域内的干扰,进一步放大了遗忘和保留性能不平衡的困境。作为回应,我们为 LLM 提出了一种可扩展且保护隐私的联合遗忘方法。我们的方法通过特定于任务的适配器学习来解耦遗忘和保留,并采用分层合并策略来减轻目标冲突,并实现强大的、适应性强的遗忘更新。对 WMDP、MUSE 和 TOFU 基准的综合实验表明,与基线方法相比,我们的方法可以有效处理异构遗忘请求,同时保持强大的 LLM 实用性 ...
联邦学习(FL)是一种流行的协作培训范例,它避免了客户端之间的直接数据暴露。然而,数据隐私问题仍然存在:FL 训练的大型语言模型能够记住并完成训练数据中包含的短语和句子(当给出前缀时)。因此,对抗性的和诚实但好奇的客户可以简单地通过有针对性的提示来恢复其他参与者的训练数据。在这项工作中,我们证明了一种流行且简单的微调策略,即低秩适应 (LoRA),可以将 FL 期间的记忆量减少多达 10 倍。我们通过执行医学问答微调任务并注入从外部临床数据集中提取的分布外敏感序列的多个副本来研究这种效果。我们观察到多种 Llama 2 和 3 模型的记忆量减少,并发现 LoRA 也可以减少集中学习中的记忆量。此外,我们还表明 LoRA 可以与其他隐私保护技术(例如梯度裁剪和高斯噪声、安全聚合和 Goldfish 损失)相结合,以在保持性能的同时进一步提高记录级隐私 ...
大型语言模型通常是根据从网络收集的数据集进行训练的,这些数据集可能会无意中包含有害或敏感的个人信息。为了解决日益增长的隐私问题,人们提出了消除学习方法来消除训练模型中特定数据的影响。其中,精确遗忘(在没有目标数据的情况下从头开始重新训练模型)被广泛认为是减轻部署中隐私风险的黄金标准。在本文中,我们在实际部署环境中重新审视了这一假设,其中公开了学习前和学习后 logits API,例如在开放权重场景中。针对这种设置,我们引入了一种新颖的数据提取攻击,该攻击利用来自学习前模型的信号来指导学习后模型,揭示反映已删除数据分布的模式。将模型指导与 Token 过滤策略相结合,我们的攻击在 MUSE、TOFU 和 WMDP 等常见基准测试中显着提高了提取成功率,在某些情况下性能提高了一倍。此外,我们在模拟医疗诊断数据集上展示了我们的攻击的有效性,以突出与精确遗忘相关的现实世界隐私风险。我们的研究结果表明,遗忘可能会以一种矛盾的方式增加现实世界部署期间隐私泄露的风险,因此我们主张对遗忘方法进行评估,以考虑更广泛的威胁模型,这些模型不仅考虑遗忘后模型,还考虑对先前检查点的对抗性访问。代码可在以下位置公开获取:此 https URL ...
2017 年推出的联邦学习 (FL) 促进了非信任方之间的协作学习,无需各方之间明确共享数据。这允许对用户数据进行模型训练,同时尊重 GDPR 和 CPRA 等隐私法规。然而,新出现的隐私要求可能会要求模型所有者能够\emph{忘记}一些学习到的数据,例如,当数据所有者或执法部门要求时。这催生了一个活跃的研究领域,称为\emph{机器取消学习}。在 FL 的背景下,许多为在集中设置中忘却学习而开发的技术并不是那么适用!这是由于集中式学习和分布式学习之间的独特差异,特别是 FL 中的交互性、随机性、异质性和有限的可访问性。作为回应,最近的工作重点是开发适合 FL 的遗忘机制。这篇 SoK 论文旨在深入研究 \emph{federated unlearning} 文献,旨在确定这一新兴领域的研究趋势和挑战。通过对 FL 取消学习(自 2020 年以来)上发表的论文进行仔细分类,我们的目标是查明联合取消学习的独特复杂性,强调直接应用集中式取消学习方法的局限性。我们比较了现有的关于影响消除和性能恢复的联合遗忘方法,比较了它们的威胁模型和假设,并讨论了它们的含义和局限性。例如,我们从多个角度分析 FL 去学习研究的实验设置,包括数据异质性及其模拟、用于演示的数据集和评估指标。我们的工作旨在为未来联合取消学习的研究提供见解和建议 ...
大型语言模型 (LLM) 的出现彻底改变了自然语言处理,使跨各种任务的高级理解和推理能力成为可能。针对特定领域对这些模型进行微调,特别是通过 LoRA 等参数高效微调 (PEFT) 策略,由于其效率而已成为一种普遍的做法。然而,这引起了重大的隐私和安全问题,因为模型可能会无意中保留和传播敏感或不需要的信息。为了解决这些问题,我们引入了一种新颖的实例级遗忘框架 LLMEraser,它系统地对遗忘任务进行分类,并使用影响函数应用精确的参数调整。与通常范围有限且需要大量再训练的传统忘却技术不同,LLMEraser 旨在处理广泛的忘却任务,而不会影响模型性能。对基准数据集的大量实验表明,LLMEraser 擅长有效管理各种遗忘场景,同时保持模型的整体完整性和有效性 ...
联邦学习(FL)最近成为一种引人注目的机器学习范例,优先考虑训练数据的隐私保护。解决“被遗忘的权利”和打击数据中毒攻击等问题的需求不断增长,凸显了称为 \textit{unlearning} 的技术的重要性,该技术有助于从经过训练的 FL 模型中删除特定的训练数据。尽管提出了许多用于集中学习的忘却方法,但由于两种学习范式的操作存在根本差异,它们常常被证明不适用于 FL。因此,FL 的遗忘仍处于早期阶段,带来了一些挑战。许多现有的 FL 遗忘解决方案需要昂贵的再培训过程,这对客户来说可能是一个负担。此外,这些方法主要通过实验验证,缺乏理论保证。在这项研究中,我们引入了 Fast-FedUL,这是一种为 FL 量身定制的忘却方法,它完全消除了重新训练的需要。通过对每轮目标客户对全局模型的影响进行细致分析,我们开发了一种算法,可以系统地从训练模型中消除目标客户的影响。除了提供实证研究结果之外,我们还提供了理论分析,描述了我们未学习的模型和精确的再训练模型(通过使用非目标客户再训练获得的模型)的上限。后门攻击场景的实验结果表明,Fast-FedUL 有效地删除了目标客户端的几乎所有痕迹,同时保留了非目标客户端的知识(在主要任务上获得高达 98% 的高精度)。值得注意的是,Fast-FedUL 实现了最低的时间复杂度,速度比重新训练快 1000 倍。我们的源代码可在 \url{this https URL} 上公开获取 ...
联邦学习是隐私保护协作模型训练的一种有前途的范例。在实践中,不仅需要不断训练模型来获取新知识,而且还要保证旧知识的被遗忘权(即联合遗忘),特别是对于隐私敏感信息或有害知识。然而,当前的联合遗忘方法面临着一些挑战,包括跨客户端知识的无差别遗忘、遗忘的不可逆性以及巨大的遗忘成本。为此,我们提出了一种名为 FUSED 的方法,该方法首先通过分析每一层对知识的敏感性来识别关键层,并为敏感层构建稀疏的不可学习适配器。然后,在不改变原始参数的情况下对适配器进行训练,用剩余的知识覆盖未学习的知识。这种知识覆盖过程使 FUSED 能够减轻不加区别地遗忘的影响。此外,独立适配器的引入使得忘却是可逆的,并显着降低了忘却成本。最后,对不同遗忘场景的三个数据集进行的广泛实验表明,FUSED 的有效性与再训练相当,超越所有其他基线,同时大大降低遗忘成本 ...