大型语言模型(LLM),例如chatgpt和bard,已经彻底改变了自然语言的理解和产生。他们具有深厚的语言理解,类似人类的文本生成能力,上下文意识和强大的解决问题的技能,使其在各个领域中无价(例如, ...

0 0 0 0 2025/02/20 arXiv:2312.02003v3 chenzhuo-wang

通过大语言模型(LLM)本身生成合成数据集已成为提高LLM性能的有前途的方法。但是,LLM固有地反映了其培训数据中存在的偏见,从而导致了一个关键的挑战:当这些模型生成培训的合成数据时,它们可能会传播并扩大其固有的偏见,从而对下游任务产生严重影响模型的公平性和稳健性 - 这一现象 - 这一现象我们称偏见的继承。这项工作介绍了在理解,分析和减轻偏差遗传方面进行的首次系统调查 ...

0 0 0 0 2025/02/20 arXiv:2502.04419v2 chenzhuo-wang

随着大语言模型(LLM)的快速发展,信息检索系统(例如搜索引擎和推荐系统)已经发生了重大的范式转移。这种演变虽然预示了新的机会,但却引入了新兴的挑战,尤其是在偏见和不公平方面,这可能威胁到信息生态系统。在本文中,我们对IR系统中LLMS集成时的现有作品进行了全面调查 ...

0 0 0 0 2025/02/20 arXiv:2404.11457v2 chenzhuo-wang

基础模型(FMS),例如Llama,Bert,GPT,VIT和CLIP,在广泛的应用中取得了显着的成功,这是由于其利用大量数据进行预训练的能力所驱动。但是,优化FMS通常需要访问敏感数据,提高隐私问题并限制其在许多域中的适用性。在本文中,我们提出了联合基金会模型(FFMS)范式,该模型结合了FMS和联合学习的好处(FL),以促进多个最终用户的隐私权和协作学习 ...

0 0 0 0 2025/01/24 arXiv:2305.11414v3 chenzhuo-wang

本文介绍了 FedSecurity,这是一个端到端基准测试,作为 FedML 库的补充组件,用于模拟联邦学习(FL)中的对抗性攻击和相应的防御机制。 FedSecurity 无需实施基本 FL 程序,例如 ...

0 0 0 0 2025/01/24 arXiv:2306.04959v5 chenzhuo-wang

提示调整尝试更新预训练模型中的一些特定于任务的参数。它在语言理解和生成任务上都取得了与完整参数集微调相当的性能。在这项工作中,我们研究了神经文本检索器的提示调整问题 ...

0 0 0 0 2025/01/17 arXiv:2207.07087v1 chenzhuo-wang

最近,提示显着提高了预训练大型语言模型(LLM)在各种下游任务上的性能,使其对于各种 LLM 应用场景越来越不可或缺。然而,后门漏洞是一种严重的安全威胁,可以恶意改变受害者模型的正常预测,但对于基于提示的 LLM 来说,尚未得到充分的探索。在本文中,我们提出了 POISONPROMPT,这是一种新颖的后门攻击,能够成功破坏基于硬提示和软提示的 LLM ...

0 0 0 0 2025/01/17 arXiv:2310.12439v2 chenzhuo-wang

由于其强大的下游任务性能和高效的多任务服务能力,即时调优已成为部署大规模语言模型的一种有吸引力的范例。尽管它被广泛采用,但我们凭经验表明,即时调整很容易受到下游任务无关的后门的影响,这些后门驻留在预训练的模型中,可以影响任意下游任务。最先进的后门检测方法无法防御与任务无关的后门,因为它们在逆转后门触发器方面很难收敛 ...

0 0 0 0 2025/01/17 arXiv:2308.13904v2 chenzhuo-wang

最近,已经提出并成功实现了应用于语言模型的各种参数高效微调(PEFT)策略。然而,这就提出了一个问题:PEFT 仅更新一组有限的模型参数,在面临重量中毒后门攻击时是否构成安全漏洞。在这项研究中,我们表明,与全参数微调方法相比,PEFT 更容易受到权重中毒后门攻击,即使在微调之后,预定义的触发器仍然可利用,并且预定义的目标仍保持高置信度 ...

0 0 0 0 2025/01/16 arXiv:2402.12168v3 chenzhuo-wang

基于提示的学习范式最近引起了很多研究关注。它在多项 NLP 任务上实现了最先进的性能,特别是在少数场景中。在引导下游任务时,很少有研究研究基于提示的模型的安全问题 ...

0 0 0 0 2025/01/16 arXiv:2211.14719v1 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)