基于提示的调整已成为大型视觉语言模型中全面微调的轻量级替代方案,通过学习的上下文提示实现有效的适应。这种范例最近已扩展到联合学习设置(例如 PromptFL),其中客户在数据隐私约束下协作训练提示。然而,联合多模态学习中基于提示的聚合的安全影响在很大程度上仍未得到探索,导致关键攻击面尚未得到解决。在本文中,我们介绍了 \textbf{BadPromptFL},这是第一个针对多模态对比模型中基于提示的联邦学习的后门攻击。在 BadPromptFL 中,受感染的客户端联合优化本地后门触发器和提示嵌入,将中毒提示注入全局聚合过程。然后,这些提示会传播到良性客户端,从而在推理时启用通用后门激活,而无需修改模型参数。利用 CLIP 式架构的上下文学习行为,BadPromptFL 在可见性极低和客户端参与有限的情况下实现了高攻击成功率(例如,\(>90\%\))。跨多个数据集和聚合协议的广泛实验验证了我们的攻击的有效性、隐蔽性和普遍性,引发了人们对基于提示的联合学习在现实世界部署中的稳健性的严重担忧 ...

0 0 0 0 2025/11/21 arXiv:2508.08040v3 chenzhuo-wang

生成的大语言模型(LLM)在各种任务上取得了长足的进步,但它们仍然容易受到后门攻击的影响,在此提示中,特定的触发器会导致LLM产生对手态的响应。尽管大多数后门研究都集中在视觉或文本分类任务上,但文本生成中的后门攻击在很大程度上被忽略了。在这项工作中,我们介绍了\ textit {Backdoorllm},这是研究对LLMS的后门攻击的第一个全面基准 ...

0 0 0 0 2025/11/20 arXiv:2408.12798v2 chenzhuo-wang

随着 LLM 的快速发展和可及性的不断提高,微调对齐模型已成为使其适应现实世界应用的关键步骤,这使得微调过程的安全性比以往任何时候都更加重要。然而,最近的研究凸显了一个关键挑战:即使使用看似良性的下游数据集进行微调,对齐的 LLM 的安全性也可能受到损害,使它们更容易受到恶意指令的影响。在本文中,我们表明微调数据集通常包含具有安全降级特征的样本,这些特征在表面上不易识别。这些样本会在微调过程中显着降低 LLM 的安全性。为了解决这个问题,我们提出了 LARF,一种层感知表示过滤方法。该方法识别 LLM 中的安全敏感层,并利用其表示来检测训练后数据集中的哪些数据样本包含安全性降低的特征。实验结果表明,LARF 可以有效识别具有安全性降低特征的良性数据。删除此类数据后,可以减轻微调引起的安全对齐退化。请在此 https URL 中查看我们的代码 ...

0 0 0 0 2025/11/06 arXiv:2507.18631v2 chenzhuo-wang

随着机器学习 (ML) 算法越来越多地用于高风险应用,人们开始担心它们可能会对某些社会群体产生偏见。尽管已经提出了许多方法来使机器学习模型公平,但它们通常依赖于训练和部署中的数据分布相同的假设。不幸的是,这在实践中经常被违反,并且在训练期间公平的模型可能会在部署期间导致意外的结果 ...

0 0 0 0 2025/10/19 arXiv:2301.13323v1 chenzhuo-wang

参数有效的微调(PEFT)方法(例如低级适应(LORA))通过降低计算和通信成本来优化联合培训。我们建议使用交替优化的联合框架Rolora,以微调Lora适配器。我们的方法强调了向上下投影矩阵学习以增强表现力和鲁棒性的重要性 ...

0 0 0 0 2025/09/30 arXiv:2502.01755v3 chenzhuo-wang

大型语言模型(LLM)由于其重要的理解和处理文本能力而引起了人们的关注。然而,LLM在很大程度上仍然不透明。缺乏对LLM的了解阻碍了安全至关重要的情况的部署,并阻碍了更好的模型的发展 ...

0 0 0 0 2025/09/23 arXiv:2409.14381v1 chenzhuo-wang

确保在大语言模型(LLM)中确保公平和隐私的认识至关重要。有趣的是,我们发现了一种违反直觉的权衡现象,该现象通过监督的微调(SFT)方法来增强LLM的隐私意识,从而大大降低了其公平意识,以数千个样本。 To address this issue, inspired by the information theory, we introduce a training-free method to \textbf{S}uppress the \textbf{P}rivacy and fa\textbf{I}rness coupled \textbf{N}eurons (\textbf{SPIN}), which theoretically and empirically decrease the mutual information between fairness and privacy awareness. ...

0 0 0 0 2025/09/18 arXiv:2410.16672v2 chenzhuo-wang

大型语言模型(LLM)表现出强大的性能和发展前景,并广泛部署在现实世界中。但是,LLM可以从未经处理的培训数据中捕获社交偏见,并将偏见传播到下游任务。不公平的LLM系统具有不良的社会影响和潜在的危害 ...

0 0 0 0 2025/09/17 arXiv:2308.10149v2 chenzhuo-wang

将概论性的视觉基础模型(如夹子)整合到联邦学习中,引起了人们的重大关注,以增强跨不同任务的概括。通常,联邦视觉学习模型采用迅速学习来降低沟通和计算成本,即 ...

0 0 0 0 2025/09/12 arXiv:2409.19610v1 chenzhuo-wang

自然语言处理系统中审慎的语言模型的普及要求对下游任务中的此类模型进行仔细的评估,这些任务具有更高的社会影响潜力。对此类系统的评估通常集中在准确性措施上。我们在本文中的发现也要求注意公平措施 ...

0 0 0 0 2025/09/11 arXiv:2108.01250v3 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)