注意力模块的二次复杂度使其在生成过程中逐渐成为基于 Transformer 的 LLM 中的计算量。此外,处理长输入时出现的过多键值缓存也会带来严重的内存占用和推理延迟问题。在这项工作中,我们提出了一种即插即用的方法,能够将指定范围的 Token 的中间激活增量压缩为紧凑的 Token ,从而在处理后续上下文时减少内存和计算成本 ...
音系重建是历史语言学的核心问题之一,其中祖先语言的原词是根据观察到的子代语言的同源词确定的。历史语言学的计算方法试图通过学习可用语言数据的模型来自动化任务。从计算生物学中汲取的一些思想和技术已成功应用于计算历史语言学领域 ...
自回归解码限制了机器翻译(MT)转换器的效率。社区提出了特定的网络架构和基于学习的方法来解决这个问题,但这些方法成本高昂,并且需要更改机器翻译模型,以牺牲翻译质量为在本文中,我们从解码算法的角度来解决这个问题,这是一个看似解决的探索,但引人注目的方向...... ...
位置建模在《变形金刚》中发挥了至关重要的作用。在本文中,我们关注长度外推,即... ...