随着大型预训练语言模型 (PLM) 的激增,微调所有模型参数变得越来越低效,特别是在处理需要大量训练和存储成本的大量下游任务时。已经提出了几种旨在实现参数高效微调(PEFT)的方法。其中,低秩适应(LoRA)作为一种原型方法脱颖而出,它将可训练的秩分解矩阵合并到每个目标模块中 ...
大规模预训练以及针对特定任务的微调在各种 NLP 任务中取得了巨大成功。由于微调大型预训练模型的所有参数会带来巨大的计算和内存挑战,因此开发了几种有效的微调方法。其中,低秩适应(LoRA)在冻结预训练权重的基础上对低秩增量更新矩阵进行微调,已被证明特别有效 ...
以参数有效的方式微调预训练的大型语言模型因其有效性和效率而被广泛研究。流行的低秩适应方法(LoRA)提供了一种值得注意的方法,假设适应过程本质上是低维的。尽管 LoRA 表现出了值得称赞的性能,但它是通过固定且不可更改的内在等级来实现的,这可能并不总是理想的选择 ...
参数高效微调(PEFT)因其在大型语言模型时代的有效性和效率而被广泛研究。低秩适应(LoRA)作为一种流行且具有代表性的方法表现出了值得称赞的性能。然而,它是通过固定的内在等级来实现的,这可能不是下游任务的理想设置 ...
我们提出了一种新颖的参数高效微调(PEFT)方法,称为低阶自适应自适应冻结(AFLoRA)。具体来说,对于每个预训练的冻结权重张量,我们添加可训练低秩矩阵的并行路径,即下投影和上投影矩阵,每个矩阵后跟一个特征变换向量。基于一种新颖的冻结分数,我们在微调过程中逐步冻结这些投影矩阵,以减少计算量并缓解过度拟合 ...
本文对 2019 年 2 月至 2023 年 2 月期间发表的 40 多篇论文的参数高效微调方法进行了系统的概述和比较。这些方法旨在解决仅通过训练一小部分集合来微调大型语言模型的不可行性和不切实际的问题参数。我们提供了涵盖广泛方法的分类法,并提供了详细的方法比较,特别关注现实生活中的效率和微调数十亿规模的语言模型 ...