Subquadratic преодолевает барьер сложности LLM с помощью модели SubQ

Стартап Subquadratic представил модель SubQ, которая решает проблему квадратичной сложности стандартных трансформеров с помощью технологии Dynamic Sparse Attention. Новая архитектура работает в 56 раз быстрее решений на базе FlashAttention и поддерживает контекстное окно объемом до 12 миллионов токенов.

Что произошло

Разработчики Subquadratic представили модель SubQ, использующую метод динамического разреженного внимания (Dynamic Sparse Attention). В ходе тестирования на поиск информации (needle-in-haystack) модель продемонстрировала точность 98% при работе с контекстом до 12 миллионов токенов, обеспечивая при этом 56-кратное ускорение относительно механизмов FlashAttention.

Контекст

Традиционные архитектуры Transformer сталкиваются с квадратичной вычислительной сложностью при увеличении длины входной последовательности, что создает критический барьер для обработки сверхдлинных текстов. Переход от плотного (dense) к динамическому разреженному (sparse) вниманию рассматривается как фундаментальный способ преодоления этого ограничения.

Почему это важно для индустрии

Для индустрии это означает радикальное снижение вычислительной стоимости обработки длинных контекстов. Технология позволяет анализировать огромные массивы данных, такие как кодовые базы и архивы документов, без экспоненциального роста затрат, что может изменить стандарты подготовки моделей для задач с длинным контекстом и снизить совокупную стоимость владения (TCO).

Почему это важно для пользователей

Пользователи получат доступ к нейросетям, способным мгновенно анализировать целые библиотеки или тысячи файлов кода за один проход, не полагаясь на классические методы дробления текста (chunking) в RAG-пайплайнах. Это делает работу с большими данными быстрее и дешевле по сравнению с текущими решениями вроде GPT-4.

Что пока неизвестно / ограничения

Инженерное сообщество выражает умеренный скепсис, указывая на нехватку данных по реальной стоимости инференса и надежности архитектуры. Для промышленного внедрения требуется дополнительная верификация производительности на реальных GPU-кластерах.

Источники

MIT Technology Review

Автор

Look at AI, редакция