Qwen-AgentWorld обошёл Claude Opus и GPT-5.4 на новом агентном бенчмарке

Команда Qwen представила Qwen-AgentWorld — новые open-weight модели (35B MoE и 397B), специально обученные как языковые модели мира (Language World Models) для симуляции различных цифровых сред.

Что произошло

Разработчики выпустили две модели: 35B MoE и 397B, способные симулировать семь сред: web, terminal, coding, search, OS, Android и MCP. Модель размером 397B показала результат 58.71 балла в бенчмарке AgentWorldBench, превзойдя показатели GPT-5.4 и Claude Opus (4.8). Процесс обучения включал использование более 10 миллионов траекторий взаимодействия со средой через специализированный пайплайн CPT, SFT и RL.

Контекст

В отличие от традиционных текстовых LLM, Qwen-AgentWorld фокусируется на предсказании состояний среды. Это позволяет создавать высококачественные синтетические траектории для обучения агентов, перенося фокус с ограниченного обучения на реальных данных в интернете на масштабируемое обучение в контролируемых цифровых симуляциях.

Почему это важно для индустрии

Появление специализированных моделей-симуляторов позволяет индустрии масштабировать обучение агентного Reinforcement Learning (RL) в контролируемых цифровых средах, обходя физические или инфраструктурные ограничения реального мира. Это ускоряет создание универсальных ИИ-агентов с глубоким планированием и способностью к самокоррекции.

Почему это важно для пользователей

Благодаря доступности открытых весов (open-weight) на Hugging Face, исследователи и разработчики могут немедленно начать эксперименты с симуляцией сред. Пользователи получают возможность создавать собственных агентов для эффективной работы в терминале, браузере или операционных системах, используя методы предсказания следующего состояния среды.

Что пока неизвестно / ограничения

Существует технический скепсис относительно практического внедрения из-за нерешенных вопросов инфраструктуры и высокой стоимости инференса моделей масштаба 397B.

Источники

Автор

Look at AI, редакция