Новости

Qwen 3.6 с технологией MTP выдает 187 токенов/сек на двух RTX 3090

Использование технологии Multi-Token Prediction (MTP) на модели Qwen 3.6 позволяет достичь сверхвысокой скорости генерации на потребительском железе.

Автор Sergey KostenchukОпубликовано 2026-06-14Обновлено 2026-06-14

2026-06-14 Исследования Meta

Расширенный разбор этой новости

Открыть подробную версию с контекстом, источниками и объяснением сути новости.

Подробно

Wicked Fast Qwen 3.6 27B: 60 tok/s with MTP on RTX 3090 (2026) | InsiderLLM Источник

🚀 Qwen 3.6 с технологией MTP выдает 187 токенов/сек на двух RTX 3090

Экспериментальные тесты Qwen 3.6 93B с использованием Multi-Token Prediction (MTP) на двух картах RTX 3090 через NVLink показали скорость до 187 токенов в секунду.

🌍 Технология MTP меняет парадигму спекулятивного декодирования, позволяя предсказывать сразу несколько токенов за один шаг.

👤 Это делает запуск мощных LLM на домашних видеокартах реальностью с почти мгновенным откликом.

Источник 1: https://insiderllm.com/guides/wicked-fast-qwen-3-6-27b-mtp-rtx-3090/ Источник 2: https://insiderllm.com/guides/best-way-2x-token-output-rtx-3090-qwen-3-6-dflash/

Источники

Сюжет

Использование технологии Multi-Token Prediction (MTP) на модели Qwen 3.6 позволяет достичь сверхвысокой скорости генерации на потребительском железе. Технология MTP меняет подход к спекулятивному декодированию, повышая эффективность инференса без ущерба для точности.