🚀 Прорыв в архитектуре LLM от Subquadratic

Стартап представил модель SubQ, которая использует Dynamic Sparse Attention для обхода квадратичной сложности стандартных трансформеров. Это позволяет работать в 56 раз быстрее FlashAttention и поддерживать контекстное окно до 12 млн токенов с точностью 98% в тестах needle-in-haystack.

🌍 Переход к динамическому разреженному вниманию радикально снижает вычислительную стоимость обработки длинных контекстов, позволяя анализировать огромные кодовые базы и архивы без экспоненциального роста затрат.

👤 Это приближает эру, когда нейросети смогут мгновенно анализировать целые библиотеки или тысячи файлов кода за один раз, работая быстрее и дешевле текущих моделей вроде GPT-4.

Источник 1: https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/