arxiv LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors

名称
LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
首页
https://yiyibooks.cn/arxiv/2308.13904v2/index.html
原始地址
https://arxiv.org/pdf/2308.13904
描述
由于其强大的下游任务性能和高效的多任务服务能力,即时调优已成为部署大规模语言模型的一种有吸引力的范例。尽管它被广泛采用,但我们凭经验表明,即时调整很容易受到下游任务无关的后门的影响,这些后门驻留在预训练的模型中,可以影响任意下游任务。最先进的后门检测方法无法防御与任务无关的后门,因为它们在逆转后门触发器方面很难收敛 ...