Прорыв в локальном инференсе: технология MTP позволяет запускать...

Экспериментальные тесты демонстрируют, что применение технологии Multi-Token Prediction (MTP) в семействе моделей Qwen 3.6 радикально повышает скорость генерации даже на бытовом оборудовании, делая запуск мощных LLM локально технически и экономически целесообразным.

Что произошло

В ходе тестов конфигурация из двух видеокарт RTX 3090, объединенных через NVLink, показала производительность до 187 токенов в секунду при использовании модели Qwen 3.6 93B с технологией MTP. Для более компактных моделей, таких как Qwen 3.6 27B, использование специализированных веток llama.cpp с поддержкой MTP обеспечивает прирост скорости примерно в 1.8 раза по сравнению со стандартной генерацией.

Контекст

Технология Multi-Token Prediction (MTP) меняет традиционную парадигму спекулятивного декодирования. Вместо предсказания одного следующего токена, модель обучается и работает на предсказание сразу нескольких токенов за один шаг, что существенно повышает эффективность инференса без существенной потери точности.

Почему это важно для индустрии

Для индустрии AI внедрение MTP означает переход от простого масштабирования количества параметров к архитектурным решениям, оптимизирующим эффективность генерации (tokens/sec/$). Это стимулирует развитие edge-computing и стандартизацию методов многотокенового предсказания в ключевых open-source инструментах, таких как llama.cpp и vLLM.

Почему это важно для пользователей

Для рядовых пользователей и разработчиков это означает, что запуск тяжелых моделей уровня 93B на домашнем железе (например, на б/у картах RTX 3090) становится реальностью с почти мгновенным откликом. Это открывает возможности для создания быстрых, автономных и приватных AI-агентов, работающих непосредственно на персональных устройствах без зависимости от облачных API.

Источники

Автор

Look at AI, редакция