arxiv Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning

名称
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
首页
https://yiyibooks.cn/arxiv/2402.12168v3/index.html
原始地址
https://arxiv.org/abs/2402.12168
描述
最近,已经提出并成功实现了应用于语言模型的各种参数高效微调(PEFT)策略。然而,这就提出了一个问题:PEFT 仅更新一组有限的模型参数,在面临重量中毒后门攻击时是否构成安全漏洞。在这项研究中,我们表明,与全参数微调方法相比,PEFT 更容易受到权重中毒后门攻击,即使在微调之后,预定义的触发器仍然可利用,并且预定义的目标仍保持高置信度 ...