Генеральный директор Mistral AI Артур Менш сообщил о планах выпустить новое семейство моделей этим летом, используя инновационный архитектурный подход для масштабирования производительности.

Что произошло

Mistral AI готовит к запуску новую линейку моделей, которая будет базироваться на архитектуре «fat but sparse» (широкая, но разреженная). Для реализации этого подхода планируется использование механизмов Mixture-of-Experts (MoE), что позволит сочетать огромный объем параметров с высокой вычислительной эффективностью. В июле компания планирует открыть программу раннего доступа для ключевых партнеров из исследовательского, государственного и промышленного секторов.

Контекст

Архитектура Mixture-of-Experts (MoE) позволяет моделям обладать широким набором знаний за счет большого общего количества параметров, при этом для обработки каждого конкретного запроса активируется лишь часть нейронов. Это решает фундаментальное противоречие между масштабом знаний системы и стоимостью ее инференса.

Почему это важно для индустрии

Переход к архитектуре «fat but sparse» подтверждает глобальный тренд на масштабирование параметров при сохранении вычислительной эффективности через разреженность. Это критически важный шаг для конкуренции с закрытыми проприетарными решениями уровня GPT-4 или GPT-5, а также может привести к закреплению MoE в качестве стандарта для крупномасштабных LLM.

Почему это важно для пользователей

Для конечных пользователей и разработчиков это означает появление моделей, которые потенциально могут обладать знаниями огромных систем, но при этом будут работать быстрее и стоить дешевле за счет оптимизации использования ресурсов при каждом запросе.

Что пока неизвестно / ограничения

На текущий момент доступны только общие сведения об архитектуре; конкретные технические характеристики моделей, их точные размеры и доступ к весам или API будут известны только после запуска программы раннего доступа.

Источники

Автор

Look at AI, редакция