随着对数据隐私问题的日益关注,最近的研究在隐私敏感的自然语言处理(NLP)任务上使用联邦学习(FL)取得了重大进展。许多文献表明,在 FL 范式中完全微调预训练语言模型 (PLM) 可以缓解数据异构性问题,并缩小与集中训练的性能差距。然而,大型 PLM 给 FL 系统带来了高昂的通信开销和本地模型适应成本 ...
随着大型语言模型(LLM)的参数规模不断扩大,迫切需要解决高质量数据的稀缺问题。对此,现有研究试图通过将联邦学习(FL)纳入 LLM 来取得突破。相反,考虑到 LLM 在任务泛化方面的出色表现,研究人员也尝试将 LLM 应用到FL中来应对相关领域的挑战 ...
基于深度学习的语言模型在情感分析、主题标记、意图分类等许多应用中取得了最先进的结果。使用这些模型获取文本表示或嵌入提供了对从语言和上下文线索中学习到的个人身份信息进行编码的可能性,这可能会给声誉或隐私带来风险。为了改善这些问题,我们提出了上下文感知私有嵌入(CAPE),这是一种在嵌入训练期间保护隐私的新颖方法 ...
在多方共同从各自的数据中学习模型的联邦学习场景中,选择合适的算法存在两个相互冲突的目标。一方面,在 \textit{semi-honest} 合作伙伴存在的情况下,必须尽可能保证私人和敏感的训练数据的安全,而另一方面,必须在不同各方之间交换一定量的信息,以确保出于学习效用。这样的挑战需要保护隐私的联邦学习解决方案,该解决方案最大限度地提高学习模型的效用,并维护参与方私人数据的可证明的隐私保证 ...
ChatGPT 等大型语言模型 (LLM) 极大地简化了文本生成任务。然而,他们也对数据泄露和未经授权的数据收集等隐私风险表示担忧。现有的隐私保护推理解决方案面临着与计算时间和通信成本相关的实际挑战 ...
预训练的通用语言模型一直是实现现实世界自然语言处理 (NLP) 应用程序的主要组成部分。然而,带有后门的预训练模型可能会对应用程序构成严重威胁。现有的自然语言处理中的后门攻击大多是在微调阶段通过在目标类中引入恶意触发器来进行的,因此极大地依赖于微调任务的先验知识 ...
联邦学习(FL)是一种很有前景的范式,可以利用去中心化数据进行协作模型训练。然而,大型语言模型(LLM)的训练过程通常会导致重要参数的更新,这限制了FL技术在实际场景中处理LLM的适用性。及时调整可以显着减少要更新的参数数量,但会导致性能下降或训练效率低下 ...
随着联邦学习 (FL) 作为大型语言模型 (LLM) 应用程序的训练和调优协议的快速采用,最近的研究强调需要对 FL 进行重大修改以适应大规模的 LLM。虽然作为回应,对协议进行了重大调整,但目前缺乏对改编后的 FL 协议的全面隐私分析。为了解决这一差距,我们的工作从理论和实践的角度深入研究了用于培训 LLM 的 FL 隐私分析 ...
大多数下游适应方法通过梯度下降来调整预训练模型(PTM)的全部或部分参数,其中调整成本随着模型大小的增长而线性增加。相比之下,无梯度方法仅需要 PTM 的前向计算来调整提示,保留了高效调整和部署的优势。不过,过去关于无梯度调整的工作经常引入梯度下降来寻求良好的提示初始化,并且缺乏跨任务和 PTM 的通用性 ...
当个性化联邦学习(FL)遇到大型基础模型时,各种资源限制带来了新的挑战。除了数据、计算和通信成本等典型限制之外,对模型的访问也通常受到限制。本文致力于解决资源有限和个性化的挑战 ...