🚀 Геометрическое сжатие KV-кэша в LLM от Google Research

Исследование TurboQuant (ICLR 2026) предлагает использовать вращение и изменение системы координат для сжатия KV-кэша вместо стандартного округления. Это позволяет сохранить пространственные отношения между векторами и точность механизма Attention.

🌍 Решает проблему масштабируемости длинного контекста, снижая нагрузку на память и задержки (latency) при росте диалога.

👤 Позволяет использовать более длинные и сложные контексты в ИИ-чатах без резкого замедления ответов и огромного потребления ресурсов.

Источник 1: https://www.linkedin.com/posts/bartoszlenart_ai-llm-compression-activity-7457353419276804096-skNm Источник 2: https://bartoszlenart.com/blog/bonfires-in-the-dark