arxiv TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

/documents/74840/

基本信息

文件基本信息

名称
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
描述
矢量量化是一个植根于香农源编码理论的问题,旨在量化高维欧几里德矢量,同时最大限度地减少其几何结构的失真。我们提出 TurboQuant 来解决均方误差 (MSE) 和内积失真问题,克服现有方法无法实现最佳失真率的局限性。我们的数据无关算法适用于在线应用,可在所有位宽和尺寸上实现接近最佳的失真率(在一个小的常数因子内)。 TurboQuant 通过随机旋转输入向量、在坐标上引入集中的 Beta 分布以及利用高维中不同坐标的近独立属性来简单地对每个坐标应用最佳标量量化器来实现此目的。认识到 MSE 最优量化器在内积估计中引入偏差,我们提出了一种两阶段方法:应用 MSE 量化器,然后对残差进行 1 位量化 JL (QJL) 变换,从而产生无偏差的内积量化器。我们还提供了任何矢量量化器可实现的最佳失真率的信息论下限的正式证明,证明 TurboQuant 与这些界限非常匹配,仅相差一个小的常数($\approx$)因子。实验结果验证了我们的理论发现,表明对于 KV 缓存量化,我们在每通道 3.5 位的情况下实现了绝对质量中立,在每通道 2.5 位的情况下实现了边际质量下降。此外,在最近邻搜索任务中,我们的方法在召回方面优于现有的产品量化技术,同时将索引时间减少到几乎为零 ...