生成的大语言模型(LLM)在各种任务上取得了长足的进步,但它们仍然容易受到后门攻击的影响,在此提示中,特定的触发器会导致LLM产生对手态的响应。尽管大多数后门研究都集中在视觉或文本分类任务上,但文本生成中的后门攻击在很大程度上被忽略了。在这项工作中,我们介绍了\ textit {Backdoorllm},这是研究对LLMS的后门攻击的第一个全面基准 ...

0 0 0 0 2025/05/07 arXiv:2408.12798v1 chenzhuo-wang

Federated Learning(FL)是一种协作机器学习技术,其中多个客户与Central Server合作训练全球模型而无需共享其私人数据。但是,在非IID客户端数据集上的分布变化对这种单模型拟合的方法提出了一个挑战,该方法阻碍了全局模型有效适应每个客户端的唯一本地数据的能力。为了回应这一挑战,个性化的FL(PFL)旨在允许每个客户创建针对其私人数据量身定制的个性化本地模型 ...

0 0 0 0 2025/05/06 arXiv:2406.06207v1 chenzhuo-wang

基础模型通过在大规模数据集上提供了强大的多功能体系结构来彻底改变人工智能。但是,将这些庞大的模型适应特定的下游任务需要微调,这在计算资源中可能非常昂贵。参数有效的微调(PEFT)方法仅通过选择性更新一小部分参数来应对这一挑战 ...

0 0 0 0 2025/05/06 arXiv:2504.21099v1 chenzhuo-wang

监督的微调已成为将大型审慎模型适应下游任务的主要方法。但是,最近的研究表明,这些模型容易受到后门攻击的影响,即使是少数恶意样本也可以成功地将后门触发器嵌入到该模型中。尽管大多数现有的防御方法都集中在训练后的后门防御上,但在训练阶段,有效防御后门攻击仍然在很大程度上没有探索 ...

0 0 0 0 2025/05/05 arXiv:2501.03272v1 chenzhuo-wang

联合学习(FL)可以在保留数据隐私的同时进行协作模型培训,但其分散性的性质将其暴露于客户端数据中毒攻击(DPA)和模型中毒攻击(MPA)(MPA),以降低全球模型性能。尽管众多拟议的防御能力具有很大的有效性,但他们的评估通常是通过有限的攻击策略孤立进行的,这引起了人们对其有效性的担忧。此外,现有的研究忽略了防御DPA和MPA的相互有效性,从而导致该领域的分裂 ...

0 0 0 0 2025/04/29 arXiv:2502.03801v1 chenzhuo-wang

近年来,动画数据视频已广受欢迎。但是,由于创建和协调各种组件的复杂性,创作的数据视频仍然具有挑战性(例如 ...

0 0 0 0 2025/04/28 arXiv:2502.04801v1 chenzhuo-wang

尽管大型语言模型(LLMS)在以零拍的方式执行复杂任务方面表现出了重要的能力,但它们容易受到越狱攻击的影响,并且可以操纵以产生有害的产量。最近,越来越多的研究将越狱攻击归类为 Token 级别和迅速级别的攻击。但是,先前的工作主要忽略了越狱攻击的各种关键因素,大多数研究都集中在LLM脆弱性上,缺乏对防御增强的LLM的探索 ...

0 0 0 0 2025/04/22 arXiv:2406.09324v3 chenzhuo-wang

联合学习(FL)促进了跨不同物联网和边缘设备的分布培训,从而保护了数据的隐私。 FL的固有分布结构引入了漏洞,尤其是从旨在使本地更新偏向其优势的对抗设备。尽管大量的研究着重于拜占庭式的FL,但学术界尚未建立一个全面的基准套件,是公正评估和对不同技术的比较的关键 ...

0 0 0 0 2025/04/17 arXiv:2206.05359v4 chenzhuo-wang

大型语言模型(LLM)容易受到越狱攻击的影响 - 导致有害,不道德或有偏见的文本世代。但是,现有的越狱方法在计算上是昂贵的。在本文中,我们提出了弱至越狱的攻击,这是一种有效的方法来攻击对齐的LLM,以产生有害文本 ...

0 0 0 0 2025/04/17 arXiv:2401.17256v2 chenzhuo-wang

联合学习的最新进展表明了其在分散数据集中学习的有希望的能力。但是,由于参与该框架的对手可能出于对抗目的毒化全球模型的潜在风险,因此引起了大量工作。本文通过NLP模型的稀有单词嵌入来研究模型中毒对后门攻击的可行性 ...

0 0 0 0 2025/04/13 arXiv:2204.14017v2 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)