Компания Xiaomi представила режим MiMo-V2.5-Pro-UltraSpeed для своей флагманской модели с 1 триллионом параметров, продемонстрировав беспрецедентную скорость генерации от 1000 до 1200 токенов в секунду (TPS). Этот результат достигнут на стандартном оборудовании с 8 GPU, что делает высокопроизводительный инференс доступным без использования специализированных ускорителей.

image

Что произошло

Xiaomi выпустила новый режим MiMo-V2.5-Pro-UltraSpeed, который позволяет флагманской модели с 1T параметров работать в 15 раз быстрее, чем ChatGPT и Claude. Высокая производительность на стандартном узле из 8 GPU стала возможной благодаря синергии трех технологий: FP4-квантования экспертных слоев, метода спекулятивного декодирования DFlash и оптимизированного движка TileRT. При этом качество генерации остается на уровне Claude Opus.

Контекст

Традиционно для достижения сверхвысоких скоростей инференса крупных моделей требовалось использование специализированных AI-ускорителей, таких как чипы от Groq или Cerebras. Технологический прорыв Xiaomi позволяет использовать существующую инфраструктуру из стандартных GPU, нивелируя преимущество проприетарного специализированного железа за счет программно-алгоритмической оптимизации.

Почему это важно для индустрии

Для индустрии это означает радикальное снижение зависимости от специализированных AI-ускорителей и возможность запускать сверхмощные модели на обычном commodity-оборудовании. Это открывает путь к массовому внедрению real-time AI-систем в облаках и меняет экономику LLM-сервинга, смещая фокус с количества параметров на эффективность инференса (Tokens per Joule/Dollar).

Почему это важно для пользователей

Пользователи получают доступ к мощным моделям с задержкой, близкой к нулю. Это критически важно для создания мгновенных AI-агентов, систем высокочастотного трейдинга и инструментов для анализа данных в реальном времени, где скорость ответа напрямую определяет функциональность продукта.

Источники

Автор

Look at AI, редакция