Исследователь продемонстрировал возможность использования экстремально малых локальных моделей, таких как Qwen 0.6B, для высокоточной классификации запросов в RAG-системах, достигнув точности в 92% за счет специализированного дообучения.
Что произошло
В ходе эксперимента модель Qwen 0.6B была дообучена методом QLoRA с использованием фреймворка Unsloth для выполнения задачи классификации вопросов. При использовании подхода zero-shot точность составляла всего 10%, однако после дообучения этот показатель вырос до 92%. Важным техническим решением стало использование «непрозрачных» двухбуквенных идентификаторов (например, AA, BB) вместо полных текстовых названий категорий, что позволило минимизировать семантическую путаницу при генерации ответов.
Контекст
В современных RAG-системах (Retrieval-Augmented Generation) этап препроцессинга запросов часто требует использования мощных и дорогих LLM для классификации интентов или маршрутизации. Это увеличивает задержки (latency) и общую стоимость владения (TCO) инфраструктурой.
Почему это важно для индустрии
Данный кейс подтверждает жизнеспособность паттерна SLM-as-a-router, где сверхмалые модели (SLM) берут на себя узкоспециализированные задачи препроцессинга, позволяя оставлять тяжелые модели только для финальной генерации. Это открывает путь к созданию более эффективных и дешевых AI-агентов и стандартизации декомпозиции задач на атомарные микро-задачи.
Почему это важно для пользователей
Разработчики могут существенно снизить затраты на API-вызовы и вычислительные ресурсы, заменяя громоздкие модели локальными и быстрыми классификаторами. Применение упрощенных токенов-меток вместо текстовых ответов является эффективным хаком для повышения стабильности работы даже самых маленьких моделей.
Источники
Автор
Look at AI, редакция