个性签名 ...
Meta 的 LLaMA 系列已成为最强大的开源大型语言模型 (LLM) 系列之一。值得注意的是,LLaMA3 模型最近已发布,并通过对超过 15T Token 的数据进行超大规模预训练,在各种方面取得了令人印象深刻的性能。鉴于 LLM 低位量化在资源有限的场景中的广泛应用,我们探索了 LLaMA3 在量化为低位宽时的功能 ...
随着模型规模的不断扩大,基于 Transformer 的大型语言模型 (LLM) 取得了巨大的成功。 LLM 的规模每两年增长 240 倍,这超过了硬件的进步,并使模型推理的成本越来越高。模型量化是一种很有前途的方法,可以缓解 LLM 规模和硬件能力之间不断扩大的差距 ...
我们提出了 DoReFa-Net,一种训练具有低位宽权重和使用低位宽参数梯度激活的卷积神经网络的方法。特别是,在向后传递期间,参数梯度在传播到卷积层之前被随机量化为低位宽数。由于前向/后向传递过程中的卷积现在可以分别在低位宽权重和激活/梯度上运行,因此 DoReFa-Net 可以使用位卷积核来加速训练和推理 ...
将激活、权重和梯度量化为 4 位有望加速神经网络训练。然而,现有的 4 位训练方法需要自定义数字格式,而现代硬件不支持这种格式。在这项工作中,我们提出了一种使用 INT4 算法实现所有矩阵乘法的 Transformer 训练方法 ...