模型合并是一种有希望的轻型模型授权技术,不依赖昂贵的计算设备(例如GPU)或需要收集特定培训数据 ...
大型语言模型(LLM)通过优化传统的自然语言处理(NLP)工作流程,具有显着高级的人工智能,从而促进了它们与各种系统的集成。许多这样的NLP系统(包括我们的NLP系统)直接合并了LLM。但是,这种方法要么带来昂贵的成本,要么在微调后会产生次优的性能 ...
尽管知识编辑已在单语设置中进行了广泛的研究,但在多语言上下文中仍然没有被忽视。这项调查使有关多语言知识编辑(MKE)的最新研究系统化,这是一个越来越多的模型编辑子域,旨在确保事实编辑可靠地跨语言概括。我们提出了MKE方法的全面分类学,涵盖基于参数的,基于内存的,微调和超网络方法 ...
将大型语言模型(LLM)调整为新的和多样化的知识对于它们在现实世界应用中的持久有效性至关重要。这项调查提供了最先进的方法概述,以扩展LLM的知识,重点是整合各种知识类型,包括事实信息,领域专业知识,语言水平和用户偏好。我们探索技术,例如持续学习,模型编辑和基于检索的明确适应,同时讨论了知识一致性和可扩展性等挑战 ...
基于深度学习的端到端自动语音识别(ASR)已取得了长足的进步,但由于现实世界中的域变化,仍在跨域样本上的性能挣扎。测试时间适应(TTA)方法通过在推理时使用测试样本调整模型来解决此问题。但是,当前的ASR TTA方法主要集中在非连续TTA上,与连续TTA相比,该方法限制了跨样本知识学习 ...
我们提出了一个新颖的反事实框架,用于零射击学习(ZSL)和开放式识别(OSR),其共同的挑战是仅通过对可见级别的培训来推广到看不见的阶级。我们的想法源于这样的观察,即看不见的级别的样本通常不超出真实分布,这会导致可见级(高)和看不见的级别(低)之间的严重识别率失衡。我们表明,关键原因是这一代人不是反事实的忠诚,因此我们提出了一个忠实的忠实忠诚,其一代来自特定于样本的反事实问题:如果我们将其类别属性 ...
大型语言模型(LLMS)的快速发展需要一个严格的理论框架来解释其经验成功。尽管在理解LLM行为方面取得了重大进展,但现有的理论框架在通过统一的数学镜头来解释新兴现象方面仍然存在分散。我们通过证明两个基本结果来建立LLM体系结构与算法信息理论(AIT)之间的第一个正式联系:(1)训练过程计算在计算上通过解释为程序长度优化的损失最小化和(2)下一个token token预测近似于Solomonoff诱 ...
图表学习(GRL)已成为建模图形结构数据的有效技术。在对现实世界复杂网络中的异质性和动力学进行建模时,已经提出了专为复杂异质时间图(HTG)设计的GRL方法,并已在各个领域成功实现了成功的应用。但是,大多数现有的GRL方法主要集中于保留低阶拓扑信息,同时忽略高阶组交互关系,这与现实世界网络更一致 ...