虽然大型语言模型 (LLM) 已表现出卓越的多任务处理能力,但通常需要在下游、特定领域的数据集上对这些模型进行微调,以便与未经微调的模型相比,在测试集上产生卓越的性能。然而,微调对 LLM 泛化能力的综合影响尚不完全清楚。本文深入探讨了原始的、未经修改的 LLM 及其微调变体之间的差异 ...
无监督跨域图像检索(UCIR)旨在检索跨不同域共享同一类别的图像,而不依赖于标记数据。先前的方法通常将 UCIR 问题分解为两个不同的任务:域内表示学习和跨域特征对齐。然而,这些分离的策略忽视了这些任务之间的潜在协同作用 ...
盲脸恢复通常依赖于面部先验,例如面部几何先验或参考先验,来恢复真实且忠实的细节。然而,质量非常低的输入无法提供准确的几何先验,而高质量的参考也无法访问,从而限制了其在现实场景中的适用性。在这项工作中,我们提出了 GFP-GAN,它利用封装在预训练人脸 GAN 中的丰富多样的先验来进行盲脸恢复 ...
为了设计快速神经网络,许多工作一直致力于减少浮点运算(FLOP)的数量。然而,我们观察到,FLOP 的减少并不一定会导致延迟的类似程度的减少。这主要源于每秒浮点运算 (FLOPS) 效率低下 ...
最近大型模型的突破凸显了数据规模、标签和模式的关键意义。在本文中,我们介绍了 MS MARCO Web 搜索,这是第一个大规模信息丰富的 Web 数据集,具有数百万个真实点击的查询文档标签。该数据集密切模仿现实世界的网络文档和查询分布,为各种下游任务提供丰富的信息,并鼓励各个领域的研究,例如通用端到端神经索引器模型、通用嵌入模型和下一代信息访问具有大型语言模型的系统 ...