多查询注意力(MQA)仅使用单个键值头,大大加快了解码器推理速度。然而,MQA 可能会导致质量下降,而且仅仅为了更快的推理而训练单独的模型可能并不可取。我们 (1) 提出了一种方法,使用 5% 的原始预训练计算将现有多头语言模型检查点升级为 MQA 模型,(2) 引入分组查询注意力 (GQA),这是多查询注意力的泛化它使用中间(多于一个,少于查询头数)数量的键值头 ...
我们引入了一种混合量子经典视觉变换器架构,以其在注意力机制和多层感知器中集成了变分量子电路而闻名。该研究解决了分析即将到来的高光度大型强子对撞机的数据时计算效率和资源限制的关键挑战,将该架构作为一种潜在的解决方案。特别是,我们通过将该模型应用于来自 CMS 开放数据的多探测器喷射图像来评估我们的方法 ...
近年来,大型语言模型(LLM)在生成类人文本方面表现出了卓越的性能,被证明是跨各种应用程序的宝贵资产。然而,调整这些模型以纳入新的、领域外的知识仍然是一个挑战,特别是对于模型知识截止日期之后发生的事实和事件。本文研究了监督微调(SFT)作为 LLM 知识注入方法的有效性,特别关注最近的体育赛事领域 ...