本文提供了与量化大规模神经网络模型相关的原理,挑战和方法的全面概述。随着神经网络已发展为更大,更复杂的架构以解决越来越复杂的任务,计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响,突出了性能益处以及计算挑战和环境考虑 ...
0 0 0 2025/07/01 arXiv:2409.11650v1 felixslu
这项研究着重于大型语言模型(LLMS)如何以人为互动和互动方式为移动体现的代理(例如机器人)提供(路径)计划。一个名为LLM A*的新型框架旨在利用LLMS的常识,并提出了公用事业最佳的A*,以促进几乎没有射击的近乎最佳的路径计划。提示用于两个主要目的:1)为LLM提供基本信息,例如环境,成本,启发式方法等 ...
0 0 0 2025/07/01 arXiv:2312.01797v3 cengjunlin22
矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况,而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下,我们将量化误差最小化(QEM)问题提出最小化矩阵之间的距离。在各种应用中,矩阵量化至关重要,包括大语言模型(LLMS)权重量化,向量数据库,KV缓存量化,图形压缩和图像压缩 ...
0 0 0 2025/07/01 arXiv:2407.03637v4 felixslu
大型语言模型(LLMS)具有明显的高级自然语言处理任务,例如机器翻译,文本生成和情感分析。但是,它们的大尺寸通常由数十亿个参数组成,对存储,计算和部署构成了挑战,尤其是在资源受限的环境中,例如移动设备和边缘计算平台。有效的压缩和量化技术对于解决这些问题,减少记忆足迹和计算要求至关重要,而不会显着损害性能 ...
0 0 0 2025/07/01 arXiv:2405.17470v1 felixslu
作为大型语言模型(LLM)的基础,自我发场模块在序列长度方面面临着二次时间和记忆复杂性的挑战。 FlashAttention通过利用GPU存储器层次结构来加速注意力计算并减少其内存使用情况。一个有希望的研究方向是将闪光注视与量化方法相结合 ...
0 0 0 2025/07/01 arXiv:2409.16997v2 felixslu
视觉接地的重点是基于语言表达式从图像中检测对象。最近的大型视觉模型(LVLM)通过使用大型数据集训练大型模型具有显着高级的视觉接地性能。但是,问题仍然具有挑战性,尤其是当输入图像中出现类似对象时 ...
0 0 0 2025/07/01 arXiv:2504.02876v1 yiweima
先前关于多模式实体联系(MEL)的研究主要采用对比度学习为主要目标。但是,将其余的批次用作负面样本而无需仔细考虑,这些研究可能会利用简单的功能,并可能忽略使实体独特的基本细节。在这项工作中,我们提出了JD-CCL(基于Jaccard距离的条件对比学习),这是一种新型方法,旨在增强匹配多模式实体链接模型的能力 ...
0 0 0 2025/07/01 arXiv:2501.14166v1 Alex069
在本报告中,我们介绍了智力1,这是在全球范围内协作培训的前100亿个参数语言模型,表明大型模型培训不再局限于大型公司,而是可以通过分布式,社区驱动的方法来实现。对1万亿 Token 进行了培训,该 Token 使用了多达14个在3大洲分布的并发节点,其中30个独立的计算提供商的贡献动态加入并离开训练过程,同时保持83-96%的计算利用率和36.2-41 ...
0 0 0 2025/07/01 arXiv:2412.01152v1 tea5

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)