- 名称
- Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
- 描述
最近,已经提出并成功实现了应用于语言模型的各种参数高效微调(PEFT)策略。然而,这就提出了一个问题:PEFT 仅更新一组有限的模型参数,在面临重量中毒后门攻击时是否构成安全漏洞。在这项研究中,我们表明,与全参数微调方法相比,PEFT 更容易受到权重中毒后门攻击,即使在微调之后,预定义的触发器仍然可利用,并且预定义的目标仍保持高置信度 ...