Представлен FlashMemory-Deepseek-V4 — легковесный нейросетевой ретривер, предназначенный для оптимизации KV-кэша в моделях DeepSeek-V4. Технология позволяет сжимать кэш Compressed-Sparse-Attention (CSA) почти на 90%, сохраняя при этом высокую производительность при работе с огромными объемами данных.


Что произошло
Разработан метод FlashMemory-Deepseek-V4, который использует прогностический ретривер для управления памятью. Система сохраняет только 10–15% данных кэша на GPU, предсказывая, какие блоки понадобятся для следующих ~64 токенов на основе скрытого состояния декодируемого токена. Тесты на бенчмарках RULER и LongBench V2 подтвердили, что качество работы не уступает методу полного внимания (full-attention).
Контекст
Проблема разрастания KV-кэша является критическим ограничением при работе с длинными контекстами в LLM, так как это требует огромного объема видеопамяти (VRAM). FlashMemory-Deepseek-V4 предлагает решение через использование Compressed-Sparse-Attention (CSA) и возможность эффективной выгрузки неиспользуемых блоков памяти в CPU или на диск.
Почему это важно для индустрии
Для индустрии это открывает путь к эффективной работе моделей с ультра-длинными контекстами (более 500k токенов) на ограниченном оборудовании. Технология может стать стандартом при интеграции в open-source библиотеки для инференса, такие как vLLM или TensorRT-LLM, позволяя переходить от управления фиксированным объемом памяти к динамическим прогностическим системам.
Почему это важно для пользователей
Пользователи получат возможность запускать мощные модели с огромной памятью на значительно более дешевом и доступном потребительском железе. Это снижает порог входа для задач анализа больших документов, длинных диалогов и создания локальных AI-агентов с 'бесконечной' памятью.
Источники
- GitHub - libertywing/FlashMemory-Deepseek-V4
- Hugging Face - libertywing/FlashMemory-Deepseek-V4
- arXiv - FlashMemory-DeepSeek-V4 paper
Автор
Look at AI, редакция
