Ai2: Различия в работе гибридных моделей и трансформеров

Исследователи из Ai2 сравнили архитектуры Olmo 3 и Olmo Hybrid, выявив специфику их работы с семантикой и точным цитированием.

Автор Sergey KostenchukОпубликовано 2026-06-26Обновлено 2026-06-26

2026-06-26 Исследования

🤖 Ai2: Гибридные модели и трансформеры по-разному работают с текстом

Исследователи из Ai2 сравнили архитектуры Olmo 3 и Olmo Hybrid. Выяснилось, что гибридные модели лучше предсказывают смысловые токены (существительные, глаголы), так как рекуррентные слои эффективнее отслеживают семантику. Трансформеры же лучше справляются с точным цитированием.

🌍 Переход к гибридным моделям может оптимизировать вычисления и улучшить понимание контекста при отслеживании сущностей, хотя агрегированные метрики могут скрывать эти различия.

👤 Это объясняет, почему новые модели могут казаться «умнее» в понимании смысла, но иногда ошибаются в точном повторении цитат или скобок в коде.

Источник 1: https://allenai.org/blog/hybrid-token-prediction Источник 2: https://arxiv.org/abs/2606.20936

Источники