Представлен FlashMemory-Deepseek-V4 — легковесный нейросетевой ретривер, предназначенный для оптимизации KV-кэша в моделях DeepSeek-V4. Технология позволяет сжимать кэш Compressed-Sparse-Attention (CSA) почти на 90%, сохраняя при этом высокую производительность при работе с огромными объемами данных.

image
image
image

Что произошло

Разработан метод FlashMemory-Deepseek-V4, который использует прогностический ретривер для управления памятью. Система сохраняет только 10–15% данных кэша на GPU, предсказывая, какие блоки понадобятся для следующих ~64 токенов на основе скрытого состояния декодируемого токена. Тесты на бенчмарках RULER и LongBench V2 подтвердили, что качество работы не уступает методу полного внимания (full-attention).

Контекст

Проблема разрастания KV-кэша является критическим ограничением при работе с длинными контекстами в LLM, так как это требует огромного объема видеопамяти (VRAM). FlashMemory-Deepseek-V4 предлагает решение через использование Compressed-Sparse-Attention (CSA) и возможность эффективной выгрузки неиспользуемых блоков памяти в CPU или на диск.

Почему это важно для индустрии

Для индустрии это открывает путь к эффективной работе моделей с ультра-длинными контекстами (более 500k токенов) на ограниченном оборудовании. Технология может стать стандартом при интеграции в open-source библиотеки для инференса, такие как vLLM или TensorRT-LLM, позволяя переходить от управления фиксированным объемом памяти к динамическим прогностическим системам.

Почему это важно для пользователей

Пользователи получат возможность запускать мощные модели с огромной памятью на значительно более дешевом и доступном потребительском железе. Это снижает порог входа для задач анализа больших документов, длинных диалогов и создания локальных AI-агентов с 'бесконечной' памятью.

Источники

Автор

Look at AI, редакция