🚀 Cerebras запустили Kimi K2.6 на скорости 1000 токенов в секунду
Компания Cerebras представила рекордную производительность для модели Kimi K2.6 (Moonshot AI) с триллионом параметров. Благодаря архитектуре Wafer-Scale Engine (WSE-3), скорость инференса достигла 981 токена в секунду, что почти в 7 раз быстрее ближайшего конкурента на базе GPU-кластеров.
🌍 Демонстрация превосходства Wafer-Scale архитектуры над традиционными GPU-кластерами в задачах инференса гигантских MoE-моделей. Это смещает фокус на оптимизацию пропускной способности памяти и межчиповых соединений, что критично для агентских систем.
👤 Технологический прорыв делает взаимодействие с ИИ-агентами мгновенным. Разработчики смогут получать результаты сложных задач программирования практически в реальном времени.
Источник 1: https://www.cerebras.ai/blog/cerebras-kimi-k2-Enterprise