MiniMax представила архитектуру Sparse Attention для модели M3

🤖 MiniMax представила архитектуру Sparse Attention для M3

Компания MiniMax показала тизер новой архитектуры Sparse Attention для своей следующей модели M3. Благодаря двухстадийной схеме (легкая index-ветка для выбора релевантных блоков KV + разреженное внимание по выбранным блокам) достигается ускорение префилла в 9.7x и декодирования в 15.6x на контексте в 1 млн токенов по сравнению с моделью M2. Ожидается, что решение будет доступно в open-source.

🌍 Реализация эффективного разреженного внимания (Sparse Attention) позволяет радикально снизить вычислительную сложность работы с длинным контекстом, делая инференс агентов с миллионными окнами контекста экономически выгодным.

👤 Это означает, что будущие open-source модели смогут работать с огромными объемами данных (целые книги или репозитории кода) гораздо быстрее и дешевле, чем текущие решения на базе full attention.

Источник 1: https://x.com/MiniMax_AI/status/2059286515155599595

Источник 2: https://x.com/kimmonismus/status/2059302121489486335

Sources