🤖 Ai2: Гибридные модели и трансформеры по-разному работают с текстом

Исследователи из Ai2 сравнили архитектуры Olmo 3 и Olmo Hybrid. Выяснилось, что гибридные модели лучше предсказывают смысловые токены (существительные, глаголы), так как рекуррентные слои эффективнее отслеживают семантику. Трансформеры же лучше справляются с точным цитированием.

🌍 Переход к гибридным моделям может оптимизировать вычисления и улучшить понимание контекста при отслеживании сущностей, хотя агрегированные метрики могут скрывать эти различия.

👤 Это объясняет, почему новые модели могут казаться «умнее» в понимании смысла, но иногда ошибаются в точном повторении цитат или скобок в коде.

Источник 1: https://allenai.org/blog/hybrid-token-prediction Источник 2: https://arxiv.org/abs/2606.20936