Huawei представила KVarN для эффективного квантования KV-кэша

💻 Huawei представила KVarN — бэкенд для квантования KV-кэша, интегрированный в vLLM.

Метод использует вариационную нормализацию через Hadamard-ротацию каналов и итеративную нормализацию дисперсии. Это позволяет увеличить емкость KV-кэша в 3–5 раз при сохранении точности на уровне FP16.

🌍 Решает проблему деградации точности при агрессивном квантовании, что критически важно для моделей с длинным контекстом.

👤 Позволяет запускать мощные LLM с огромным контекстом на значительно меньшем объеме GPU-памяти без потери качества.

Источник 1: https://github.com/huawei-csl/KVarN Источник 2: https://arxiv.org/abs/2606.03458

Sources