Дообучение сверхмалых LLM для оптимизации RAG-систем

Исследователь продемонстрировал возможность использования экстремально малых локальных моделей, таких как Qwen 0.6B, для высокоточной классификации запросов в RAG-системах, достигнув точности в 92% за счет специализированного дообучения.

Что произошло

В ходе эксперимента модель Qwen 0.6B была дообучена методом QLoRA с использованием фреймворка Unsloth для выполнения задачи классификации вопросов. При использовании подхода zero-shot точность составляла всего 10%, однако после дообучения этот показатель вырос до 92%. Важным техническим решением стало использование «непрозрачных» двухбуквенных идентификаторов (например, AA, BB) вместо полных текстовых названий категорий, что позволило минимизировать семантическую путаницу при генерации ответов.

Контекст

В современных RAG-системах (Retrieval-Augmented Generation) этап препроцессинга запросов часто требует использования мощных и дорогих LLM для классификации интентов или маршрутизации. Это увеличивает задержки (latency) и общую стоимость владения (TCO) инфраструктурой.

Почему это важно для индустрии

Данный кейс подтверждает жизнеспособность паттерна SLM-as-a-router, где сверхмалые модели (SLM) берут на себя узкоспециализированные задачи препроцессинга, позволяя оставлять тяжелые модели только для финальной генерации. Это открывает путь к созданию более эффективных и дешевых AI-агентов и стандартизации декомпозиции задач на атомарные микро-задачи.

Почему это важно для пользователей

Разработчики могут существенно снизить затраты на API-вызовы и вычислительные ресурсы, заменяя громоздкие модели локальными и быстрыми классификаторами. Применение упрощенных токенов-меток вместо текстовых ответов является эффективным хаком для повышения стабильности работы даже самых маленьких моделей.

Источники

Teach Me Cool Stuff

Автор

Look at AI, редакция