状态空间模型 (SSM) 最近在大规模语言建模基准测试中向 Transformer 展示了具有竞争力的性能,同时实现了作为序列长度函数的线性时间和内存复杂性。最近发布的 SSM 模型 Mamba 在语言建模和长序列处理任务中都表现出了令人印象深刻的性能。同时,混合专家 (MoE) 模型表现出了卓越的性能,同时显着降低了推理的计算和延迟成本,但代价是占用了更大的内存占用 ...
0 0 0 2025/07/01 arXiv:2402.01771v1 zjn_a
状态空间模型(ssm)已成为顺序建模领域的有力竞争者,挑战了 Transformer 的主导地位。与此同时,专家(MOE)的混合物显着改进了基于 Transformer 的大型语言模型,包括最近最先进的开放模型。我们建议,为了释放ssm的扩展潜力,它们应该与,它们应该与 ...
0 1 0 2025/07/01 arXiv:2401.04081v2 boboshen
在这项工作中,我们将先前提出的离线空间网络扩展到静态和移动扬声器场景中的长期流媒体多通道语音增强。空间网络利用空间信息,例如语音的空间/转向方向,用于区分目标语音和干扰,并取得出色的性能。空间网络的核心是用于学习空间向量的时间动态的窄带自我发项模块 ...
0 0 0 2025/07/01 arXiv:2403.07675v2 zjn_a
超宽场荧光素血管造影(UWF-FA)可以使用荧光素钠的精确鉴定眼疾病,这可能是有害的。现有研究开发了从超宽场扫描激光眼镜检查(UWF-SLO)产生UWF-FA的方法,以减少与注射相关的不良反应。但是,这些方法在产生高质量的后期UWF-FA方面的有效性较差,尤其是在病变区域和细节中 ...
0 0 0 2025/07/01 arXiv:2409.00726v1 Rrrrr
多模式大语模型(MLLM)引起了广泛的兴趣,并具有丰富的应用。但是,其 Transformer 结构中的固有注意机制需要二次复杂性,并导致昂贵的计算开销。因此,在这项工作中,我们提出了基于状态空间模型的多模式大语言模型VL-Mamba,已证明其具有巨大的潜力,可以以序列长度快速推理和线性缩放的长期序列建模 ...
0 0 0 2025/07/01 arXiv:2403.13600v1 zjn_a
推理,设计和执行复杂的面向目标的动作序列的过程仍然是AI的关键挑战。当前的大型语言模型(LLMS)主要采用经营链(COT)技术,这些技术遭受了脆弱的任务分解,广泛的数据需求和高潜伏期。受到人脑中的层次和多时间处理的启发,我们提出了分层推理模型(HRM),这是一种新型的经常性架构,在保持训练稳定性和效率既具有训练稳定性和效率上都具有显着的计算深度 ...
0 0 0 2025/07/01 arXiv:2506.21734v1 haoyi199815
本文介绍了Helix,这是一种用于异质GPU群集中的高通量,低延迟大语言模型(LLM)的分布式系统。 Helix背后的关键思想是在异质GPU和网络连接上制定LLM的推理计算,作为定向,加权图上的最大流量问题,其节点代表GPU实例,而边缘通过其容量来捕获GPU和网络异质性。然后,Helix使用混合整数线性编程(MILP)算法来发现高度优化的策略,可在异质GPU上使用LLMS ...
0 0 1 2025/07/01 arXiv:2406.01566v2 hnu
在本文中,我们通过关联记忆的角度分享了对变形金刚体系结构的理解和见解,这是一个受人类认知启发的经典心理概念。我们从关联记忆的基础知识开始(想想简单的线性注意力),然后介入两个维度:内存容量:变形金刚能真正记住多少,以及有多好?我们介绍了检索SNR来衡量这一点,并使用内核观点来数学上揭示了为什么软马克斯的注意力如此有效。我们还展示了如何将FFN视为一种关联记忆,从而有助于其设计和潜在的改进 ...
0 0 33 2025/07/01 arXiv:2505.19488v1 hwrabbit

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)