Запуск Qwen 3.6 35B MoE с контекстом 450k токенов на одной RTX 5090

🚀 Запуск Qwen 3.6 35B MoE с контекстом 450k токенов на одной RTX 5090

Разработчик представил способ запуска модели Qwen 3.6 35B MoE с расширенным контекстом в 450 000 токенов на одной видеокарте NVIDIA RTX 5090 (32 ГБ VRAM). Для этого используется форк llama.cpp с поддержкой TurboQuant, который сжимает KV-кэш до 3 бит, и метод YaRN для масштабирования RoPE.

🌍 Демонстрирует возможности экстремальной оптимизации памяти для локального запуска тяжелых моделей с огромным контекстом на потребительском железе. Использование TurboQuant для сжатия KV-кэша до 3 бит является ключевым фактором экономии VRAM.

👤 Позволяет использовать мощные модели (MoE) для работы с очень длинными документами (до 450к токенов) без необходимости покупки профессиональных серверных GPU уровня H100.

Источник 1: https://local-llm.utop.workers.dev/

Sources