算法

标签: 算法清除筛选

Google Research 公布了 TurboQuant，并同时介绍 QJL 与 PolarQuant。三套方法都围绕同一个问题：高维向量太占内存，长上下文大模型里的 KV 缓存和向量搜索系统都会被带宽与容量拖住。

TurboQuant 给出的结果很激进：在无需训练或微调的情况下，它能把 KV 缓存量化到 3 比特。在 long-context 的 needle-in-a-haystack 测试里，相关内存占用至少压缩 6 倍，同时下游结果保持不变。