FlashMemory-Deepseek-V4: оптимизация KV-кэша через нейросетевой ретривер

Представлен FlashMemory-Deepseek-V4 — легковесный нейросетевой ретривер, позволяющий сжимать кэш Compressed-Sparse-Attention (CSA) почти на 90% в моделях DeepSeek-V4.

Автор Sergey KostenchukОпубликовано 2026-06-15Обновлено 2026-06-15

2026-06-15 Кодинг HuggingFace

🧠 FlashMemory-Deepseek-V4: оптимизация KV-кэша через нейросетевой ретривер

Представлен FlashMemory-Deepseek-V4 — легковесный нейросетевой ретривер для оптимизации KV-кэша в моделях DeepSeek-V4. Система позволяет сжимать кэш Compressed-Sparse-Attention (CSA) почти на 90%, сохраняя лишь 10–15% данных на GPU без потери качества в тестах RULER и LongBench V2.

🌍 Технология позволяет работать с ультра-длинными контекстами (500k+ токенов) на ограниченном железе, выгружая неиспользуемые блоки памяти в CPU или на диск.

👤 Использование мощных моделей станет дешевле, так как требования к видеопамяти (VRAM) для длинных диалогов и анализа документов резко снижаются.

Источник 1: https://github.com/libertywing/FlashMemory-Deepseek-V4 Источник 2: https://huggingface.co/libertywing/FlashMemory-Deepseek-V4

Источники