Разработчик представил способ запуска модели Qwen 3.6 35B MoE с расширенным контекстом в 450 000 токенов на одной видеокарте NVIDIA RTX 5090 с 32 ГБ VRAM. Благодаря использованию форка llama.cpp с поддержкой TurboQuant и метода YaRN, удалось добиться экстремальной оптимизации памяти, позволяющей работать с огромными объемами данных на потребительском железе.

image

Что произошло

С помощью форка llama.cpp, поддерживающего TurboQuant (сжатие KV-кэша до 3 бит), и метода YaRN для масштабирования RoPE, удалось запустить модель Qwen 3.6 35B MoE. При квантовании весов в Q6_K на модель уходит 28.5 ГБ VRAM, что оставляет около 2.7 ГБ для контекста, обеспечивая работу с окном в 450 000 токенов на одной RTX 5090.

Контекст

Технология TurboQuant позволяет агрессивно сжимать KV-кэш, что является критическим фактором при работе с длинными последовательностями, так как кэш потребляет значительную часть видеопамяти. Метод YaRN используется для эффективного масштабирования позиционных эмбеддингов (RoPE) под сверхдлинный контекст.

Почему это важно для индустрии

Этот кейс демонстрирует возможности экстремальной оптимизации памяти для локального запуска тяжелых моделей на потребительском оборудовании. Это может привести к стандартизации методов агрессивного квантования KV-кэша в mainstream инструментах и снижению зависимости от облачных API для создания приватных RAG-систем.

Почему это важно для пользователей

Энтузиасты и локальные разработчики получают возможность использовать мощные MoE-модели для анализа очень длинных документов, целых репозиториев кода или библиотек данных, не покупая профессиональные серверные ускорители уровня H100.

Что пока неизвестно / ограничения

Отсутствуют подробные данные по задержкам (latency) и подтвержденные метрики качества (perplexity) на таких объемах контекста, что требует осторожности при использовании решения в критически важных задачах.

Источники

Автор

Look at AI, редакция