🚀 DeepSeek-V4: новый стандарт эффективности MoE
Команда DeepSeek выпустила серию Mixture-of-Experts (MoE) моделей DeepSeek-V4, включая Pro (1.6T параметров) и Flash (284B). Ключевые новшества — гибридный механизм внимания (Compressed Sparse Attention и Heavily Compressed Attention) для работы с контекстом до 1 млн токенов и новый оптимизатор Muon.
🌍 DeepSeek-V4 устанавливает новый стандарт эффективности для сверхдлинных контекстов, значительно снижая требования к KV-кэшу (до 7-10%) и вычислительным затратам (FLOPs) при обработке 1 млн токенов.
👤 Теперь можно работать с огромными объемами данных (до миллиона токенов) гораздо быстрее и дешевле. Разнообразие режимов рассуждения (Think High/Max) позволяет гибко выбирать между скоростью ответа и глубиной логического анализа задачи.
Источник 1: https://puiching-memory.github.io/TAAC_2026/papers/deepseek-v4/ Источник 2: https://ayushgarg.ca/notes/Deepseek-V4