随着 LLM 的快速发展和可及性的不断提高,微调对齐模型已成为使其适应现实世界应用的关键步骤,这使得微调过程的安全性比以往任何时候都更加重要。然而,最近的研究凸显了一个关键挑战:即使使用看似良性的下游数据集进行微调,对齐的 LLM 的安全性也可能受到损害,使它们更容易受到恶意指令的影响。在本文中,我们表明微调数据集通常包含具有安全降级特征的样本,这些特征在表面上不易识别。这些样本会在微调过程中显着降低 LLM 的安全性。为了解决这个问题,我们提出了 LARF,一种层感知表示过滤方法。该方法识别 LLM 中的安全敏感层,并利用其表示来检测训练后数据集中的哪些数据样本包含安全性降低的特征。实验结果表明,LARF 可以有效识别具有安全性降低特征的良性数据。删除此类数据后,可以减轻微调引起的安全对齐退化。请在此 https URL 中查看我们的代码 ...

0 0 0 0 2025/11/06 arXiv:2507.18631v2 chenzhuo-wang

随着机器学习 (ML) 算法越来越多地用于高风险应用,人们开始担心它们可能会对某些社会群体产生偏见。尽管已经提出了许多方法来使机器学习模型公平,但它们通常依赖于训练和部署中的数据分布相同的假设。不幸的是,这在实践中经常被违反,并且在训练期间公平的模型可能会在部署期间导致意外的结果 ...

0 0 0 0 2025/10/19 arXiv:2301.13323v1 chenzhuo-wang

参数有效的微调(PEFT)方法(例如低级适应(LORA))通过降低计算和通信成本来优化联合培训。我们建议使用交替优化的联合框架Rolora,以微调Lora适配器。我们的方法强调了向上下投影矩阵学习以增强表现力和鲁棒性的重要性 ...

0 0 0 0 2025/09/30 arXiv:2502.01755v3 chenzhuo-wang

大型语言模型(LLM)由于其重要的理解和处理文本能力而引起了人们的关注。然而,LLM在很大程度上仍然不透明。缺乏对LLM的了解阻碍了安全至关重要的情况的部署,并阻碍了更好的模型的发展 ...

0 0 0 0 2025/09/23 arXiv:2409.14381v1 chenzhuo-wang

确保在大语言模型(LLM)中确保公平和隐私的认识至关重要。有趣的是,我们发现了一种违反直觉的权衡现象,该现象通过监督的微调(SFT)方法来增强LLM的隐私意识,从而大大降低了其公平意识,以数千个样本。 To address this issue, inspired by the information theory, we introduce a training-free method to \textbf{S}uppress the \textbf{P}rivacy and fa\textbf{I}rness coupled \textbf{N}eurons (\textbf{SPIN}), which theoretically and empirically decrease the mutual information between fairness and privacy awareness. ...

0 0 0 0 2025/09/18 arXiv:2410.16672v2 chenzhuo-wang

大型语言模型(LLM)表现出强大的性能和发展前景,并广泛部署在现实世界中。但是,LLM可以从未经处理的培训数据中捕获社交偏见,并将偏见传播到下游任务。不公平的LLM系统具有不良的社会影响和潜在的危害 ...

0 0 0 0 2025/09/17 arXiv:2308.10149v2 chenzhuo-wang

将概论性的视觉基础模型(如夹子)整合到联邦学习中,引起了人们的重大关注,以增强跨不同任务的概括。通常,联邦视觉学习模型采用迅速学习来降低沟通和计算成本,即 ...

0 0 0 0 2025/09/12 arXiv:2409.19610v1 chenzhuo-wang

自然语言处理系统中审慎的语言模型的普及要求对下游任务中的此类模型进行仔细的评估,这些任务具有更高的社会影响潜力。对此类系统的评估通常集中在准确性措施上。我们在本文中的发现也要求注意公平措施 ...

0 0 0 0 2025/09/11 arXiv:2108.01250v3 chenzhuo-wang

大语模型(LLMS)中的越狱漏洞是指通过精心制作提示或后缀从模型中提取恶意内容的方法,这引起了研究界的极大关注。但是,该模型很容易检测到主要关注语义水平的传统攻击方法。这些方法忽略了在不同输出阶段的模型对齐保护功能的差异 ...

0 0 0 0 2025/09/07 arXiv:2409.07503v1 chenzhuo-wang

在敏感领域中快速采用深度学习带来了巨大的好处。但是,这种广泛的采用也引起了严重的脆弱性,尤其是模型倒置(MI)攻击,对个人数据的隐私和完整性构成了重大威胁。这些攻击在生物识别技术,医疗保健和金融等应用中的越来越多的流行率迫切需要了解其机制,影响和防御方法 ...

0 0 0 0 2025/09/02 arXiv:2501.18934v2 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)