Компания Xiaomi представила режим MiMo-V2.5-Pro-UltraSpeed для своей флагманской модели с 1 триллионом параметров, продемонстрировав беспрецедентную скорость генерации от 1000 до 1200 токенов в секунду (TPS). Этот результат достигнут на стандартном оборудовании с 8 GPU, что делает высокопроизводительный инференс доступным без использования специализированных ускорителей.

Что произошло
Xiaomi выпустила новый режим MiMo-V2.5-Pro-UltraSpeed, который позволяет флагманской модели с 1T параметров работать в 15 раз быстрее, чем ChatGPT и Claude. Высокая производительность на стандартном узле из 8 GPU стала возможной благодаря синергии трех технологий: FP4-квантования экспертных слоев, метода спекулятивного декодирования DFlash и оптимизированного движка TileRT. При этом качество генерации остается на уровне Claude Opus.
Контекст
Традиционно для достижения сверхвысоких скоростей инференса крупных моделей требовалось использование специализированных AI-ускорителей, таких как чипы от Groq или Cerebras. Технологический прорыв Xiaomi позволяет использовать существующую инфраструктуру из стандартных GPU, нивелируя преимущество проприетарного специализированного железа за счет программно-алгоритмической оптимизации.
Почему это важно для индустрии
Для индустрии это означает радикальное снижение зависимости от специализированных AI-ускорителей и возможность запускать сверхмощные модели на обычном commodity-оборудовании. Это открывает путь к массовому внедрению real-time AI-систем в облаках и меняет экономику LLM-сервинга, смещая фокус с количества параметров на эффективность инференса (Tokens per Joule/Dollar).
Почему это важно для пользователей
Пользователи получают доступ к мощным моделям с задержкой, близкой к нулю. Это критически важно для создания мгновенных AI-агентов, систем высокочастотного трейдинга и инструментов для анализа данных в реальном времени, где скорость ответа напрямую определяет функциональность продукта.
Источники
Автор
Look at AI, редакция
