🚀 Геометрическое сжатие KV-кэша в LLM от Google Research
Исследование TurboQuant (ICLR 2026) предлагает использовать вращение и изменение системы координат для сжатия KV-кэша вместо стандартного округления. Это позволяет сохранить пространственные отношения между векторами и точность механизма Attention.
🌍 Решает проблему масштабируемости длинного контекста, снижая нагрузку на память и задержки (latency) при росте диалога.
👤 Позволяет использовать более длинные и сложные контексты в ИИ-чатах без резкого замедления ответов и огромного потребления ресурсов.
Источник 1: https://www.linkedin.com/posts/bartoszlenart_ai-llm-compression-activity-7457353419276804096-skNm Источник 2: https://bartoszlenart.com/blog/bonfires-in-the-dark
