Уроки создания локальных AI-воркфлоу: проблемы мультиагентных систем и способы их решения

Разработка локальных многоагентных систем для автоматизации сложных задач, таких как видеомонтаж, выявила фундаментальные ограничения современных языковых моделей и архитектурных подходов.

Что произошло

В ходе создания системы автоматического монтажа видео были обнаружены три критические технические проблемы: эффект Lost-in-the-Middle (игнорирование центральной части контекста LLM), эффект sycophancy (склонность агентов-рецензентов соглашаться с агентами-генераторами) и неточность Whisper при определении логических границ предложений. Для решения этих проблем была применена техника «сэндвича» (повторение ключевой информации в начале и конце промпта), внедрена гетерогенность моделей (использование разных семейств LLM для проверки) и заменен Whisper на Vosk для более точного акустического выравнивания.

Контекст

Проблема Lost-in-the-Middle связана с архитектурной особенностью LLM, при которой внимание модели фокусируется на краях длинного контекста. Эффект sycophancy в мультиагентных системах (MAS) возникает, когда использование однотипных моделей в связке «генератор-критик» приводит к коллапсу дискуссии и отсутствию объективной проверки. Также универсальные модели вроде Whisper могут уступать специализированным легковесным решениям в задачах, требующих высокой точности временных меток и сегментации аудио.

Почему это важно для индустрии

Этот кейс подчеркивает необходимость перехода от простых цепочек вызовов к сложным иерархическим системам с выраженной архитектурной гетерогенностью. Отрасли важно развивать методы Agentic Eval для проверки качества работы агентов на sycophancy и создавать фреймворки, поддерживающие интеграцию специализированных инструментов (audio/vision/math) вместо использования одной универсальной модели для всех задач.

Почему это важно для пользователей

Разработчикам, создающим AI-агентов, следует избегать использования одинаковых моделей для генерации и верификации, чтобы избежать взаимного подтверждения ошибок. При работе с аудио и задачами монтажа стоит рассмотреть использование Vosk вместо Whisper для достижения более точного определения границ фраз. Для улучшения работы с длинным контекстом рекомендуется использовать технику «сэндвича» при структурировании промптов.

Источники

Lessons from a Weekend Building Local AI Workflows

Автор

Look at AI, редакция