Компания MiniMax представила мультимодальную модель MiniMax-M3, которая использует инновационный механизм MiniMax Sparse Attention (MSA) для работы с контекстом объемом до 1 млн токенов при сохранении высокой скорости инференса.

image
image

Что произошло

MiniMax выпустила открытую мультимодальную модель MiniMax-M3 с общим числом параметров около 428 млрд. Благодаря двухветвевой архитектуре (Index Branch для поиска и Main Branch для точного внимания), в режиме инференса модель задействует всего 23 млрд параметров. Это позволяет достичь 14.2-кратного ускорения этапа prefill и 7.6-кратного ускорения декодирования по сравнению с механизмом GQA на оборудовании H800, при этом вычислительные затраты на токен снижаются в 28 раз.

Контекст

Традиционные архитектуры внимания (такие как Dense Attention или GQA) сталкиваются с квадратичным ростом вычислительных затрат при увеличении длины контекста. Релиз MiniMax-M3 знаменует переход индустрии от борьбы за общее количество параметров к оптимизации эффективности инференса и масштабируемости контекста через разреженные механизмы внимания.

Почему это важно для индустрии

Появление эффективного механизма Sparse Attention, превосходящего GQA, открывает путь к созданию коммерчески доступных мультимодальных агентов со сверхдлинным контекстом. Технология позволяет масштабировать системы без экспоненциального роста стоимости железа, делая развертывание моделей с контекстом 1M+ токенов экономически целесообразным на стандартных стеках оборудования, таких как H800.

Почему это важно для пользователей

Пользователи получают возможность работать с колоссальными объемами данных — например, целыми библиотеками книг или многочасовыми видео — значительно быстрее и дешевле. Модель также предлагает два режима работы: 'thinking' для решения сложных аналитических задач и 'non-thinking' для максимально быстрого получения ответов.

Источники

Автор

Look at AI, редакция