标签: 算法 清除筛选
Google Research 推出 TurboQuant,测试中将大模型 KV 缓存压到 3 比特
Google Research 公布了 TurboQuant,并同时介绍 QJL 与 PolarQuant。三套方法都围绕同一个问题:高维向量太占内存,长上下文大模型里的 KV 缓存和向量搜索系统都会被带宽与容量拖住。
TurboQuant 给出的结果很激进:在无需训练或微调的情况下,它能把 KV 缓存量化到 3 比特。在 long-context 的 needle-in-a-haystack 测试里,相关内存占用至少压缩 6 倍,同时下游结果保持不变。
