消息传递图神经网络(GNN)虽然擅长捕获局部关系,但常常难以应对图的远程依赖性。相反,图转换器(GT)允许所有节点之间进行信息交换,但通过将它们视为一组固定长度的向量来过度简化图结构。这项工作提出了一种新颖的架构 NeuralWalker,它通过将随机游走与消息传递相结合来克服这两种方法的局限性 ...
图神经网络((gnn))在图表示学习方面显示出了巨大的潜力。大多数gnn定义了本地消息传递机制,通过堆叠多个层在图上传播信息。然而,众所周知,这些方法存在两个主要限制:过度压缩和对远程依赖关系的捕获不佳... ...
多跳问题回答(MHQA)涉及跨多个文档推理以回答复杂问题。密集的检索器通常通过利用语义嵌入(例如BM25)优于稀疏方法;但是,它们需要标记为查询文件对进行微调。由于在整个推理步骤中查询(重新计算)问题的高度差异,这在MHQA中构成了重大挑战 ...
AI代理商经历了范式的转变,从增强学习(RL)的早期统治到由大语言模型(LLMS)提供支持的代理商的兴起,现在进一步迈向了RL和LLM功能的协同融合。这种进展已使AI代理具有越来越强大的能力。尽管有这些进步,要完成复杂的现实世界任务,需要代理才能有效地计划和执行,保持可靠的内存并与其他代理平稳协调 ...
大型语言模型需要大量的GPU内存,从而限制了选择大型模型的选择。虽然名为Qlora的低级适应技术的量化版本大大减轻了这个问题,但发现有效的洛拉等级仍然具有挑战性。此外,Qlora接受了预定义的等级的培训,因此,在不需要进一步的微调步骤的情况下,无法重新配置其较低的等级 ...
联合的微调(FEDFT)为对隐私敏感的场景提供了微调大语言模型(LLM)的有效范式。但是,由于最终设备的资源有限,实际部署仍然具有挑战性。现有方法通常利用参数有效的微调(PEFT)技术,例如低级适应(LORA),从而大大减少了通信开销 ...
Federated Lora已成为一种有前途的技术,可以通过减少可训练参数的数量来有效地对分布式设备进行大型语言模型(LLM)。但是,现有的方法通常不足以忽视系统和数据异质性的理论和实际含义,从而无法优化整体训练效率,尤其是在墙壁锁定时间方面。在本文中,我们提出了一种自适应联合的洛拉策略,并采用独立的客户抽样,以最大程度地减少在计算和通信异质性下联邦微调的融合壁锁定时间 ...
微调大语言模型(LLMS)在计算上是密集的,因为它需要更新所有参数。低级适应(LORA)通过仅修改一部分权重来提高效率,但引入了表达性和计算成本之间的权衡:较低的排名降低了资源,但限制了表现力,而较高的等级则在增加成本时提高表达能力。尽管自适应洛拉技术最近取得了进步,但现有方法未能提供理论基础来优化模型性能和效率之间的权衡 ...