Рассуждение как ключ к памяти: как CoT помогает LLM извлекать знания

Исследователи Google обнаружили, что использование Chain-of-Thought (CoT) рассуждений помогает большим языковым моделям (LLM) лучше извлекать факты из их собственной памяти, даже если сама задача не требует логических вычислений.

Что произошло

Работа Google Research выявила два ключевых механизма, благодаря которым CoT улучшает работу с параметрической памятью. Первый — «вычислительный буфер», когда генерация дополнительных токенов дает модели необходимое время на обработку информации. Второй — «фактическое праймирование», при котором промежуточные связанные факты в цепочке рассуждений подготавливают нейронную сеть к точному поиску целевого ответа.

Контекст

Традиционно Chain-of-Thought рассматривался преимущественно как инструмент для решения логических и математических задач. Однако новое исследование показывает, что процесс генерации цепочки рассуждений служит способом «разогрева» внутренней памяти модели, позволяя ей эффективнее обращаться к накопленным знаниям без использования внешних систем вроде RAG.

Почему это важно для индустрии

Для индустрии это означает смещение фокуса в обучении моделей: от простой оптимизации финального результата (outcome-based) к методам обучения с наградой за процесс (process rewards) и технике выбора траектории (trajectory selection). Это открывает путь к созданию более надежных reasoning-моделей и новых архитектур, где процесс рассуждения изначально спроектирован как механизм доступа к знаниям.

Почему это важно для пользователей

Пользователи могут заметить, что модели вроде Gemini или Qwen работают точнее в режиме рассуждения не только из-за логики, но и благодаря более качественному извлечению фактов. Это позволяет более осознанно настраивать промпты и параметры генерации (например, length penalties) для повышения точности, хотя это и влечет за собой увеличение задержки (latency) и стоимости запроса.

Что пока неизвестно / ограничения

Существует риск каскадных галлюцинаций: одна неверная деталь в цепочке рассуждений может привести к ложному итоговому ответу. Также использование CoT увеличивает вычислительную нагрузку и задержку (latency) при инференсе.

Источники

Google Research Blog

Автор

Look at AI, редакция