🚀 Qwen 3.6 с технологией MTP выдает 187 токенов/сек на двух RTX 3090

Экспериментальные тесты Qwen 3.6 93B с использованием Multi-Token Prediction (MTP) на двух картах RTX 3090 через NVLink показали скорость до 187 токенов в секунду.

🌍 Технология MTP меняет парадигму спекулятивного декодирования, позволяя предсказывать сразу несколько токенов за один шаг.

👤 Это делает запуск мощных LLM на домашних видеокартах реальностью с почти мгновенным откликом.

Источник 1: https://insiderllm.com/guides/wicked-fast-qwen-3-6-27b-mtp-rtx-3090/ Источник 2: https://insiderllm.com/guides/best-way-2x-token-output-rtx-3090-qwen-3-6-dflash/