Meta 的 LLaMA 系列已成为最强大的开源大型语言模型 (LLM) 系列之一。值得注意的是,LLaMA3 模型最近已发布,并通过对超过 15T Token 的数据进行超大规模预训练,在各种方面取得了令人印象深刻的性能。鉴于 LLM 低位量化在资源有限的场景中的广泛应用,我们探索了 LLaMA3 在量化为低位宽时的功能 ...

0 0 0 0 2024/04/25 arXiv:2404.14047v1 1210264601

随着模型规模的不断扩大,基于 Transformer 的大型语言模型 (LLM) 取得了巨大的成功。 LLM 的规模每两年增长 240 倍,这超过了硬件的进步,并使模型推理的成本越来越高。模型量化是一种很有前途的方法,可以缓解 LLM 规模和硬件能力之间不断扩大的差距 ...

0 0 0 0 2024/04/01 arXiv:2304.07493v1 1210264601

我们提出了 DoReFa-Net,一种训练具有低位宽权重和使用低位宽参数梯度激活的卷积神经网络的方法。特别是,在向后传递期间,参数梯度在传播到卷积层之前被随机量化为低位宽数。由于前向/后向传递过程中的卷积现在可以分别在低位宽权重和激活/梯度上运行,因此 DoReFa-Net 可以使用位卷积核来加速训练和推理 ...

0 0 0 0 2024/03/30 arXiv:1606.06160v3 1210264601

将激活、权重和梯度量化为 4 位有望加速神经网络训练。然而,现有的 4 位训练方法需要自定义数字格式,而现代硬件不支持这种格式。在这项工作中,我们提出了一种使用 INT4 算法实现所有矩阵乘法的 Transformer 训练方法 ...

0 0 0 0 2024/04/30 arXiv:2306.11987v2 1210264601

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)