Представлено семейство open-source моделей Boogu-Image-0.1 под лицензией Apache-2.0, предназначенное для высококачественной генерации и редактирования изображений на базе архитектуры Qwen3-VL-8B-Instruct.

image
image

Что произошло

Разработчики выпустили линейку моделей Boogu-Image-0.1, которая использует архитектуру U-Net с диффузионными шагами и CLIP-эмбеддингами. В семейство входят варианты Base (10B параметров) для базовой генерации, Turbo (оптимизированная версия, требующая всего 3-4 шага) для максимально быстрого инференса, а также специализированная модель Edit для редактирования изображений. Для снижения требований к памяти предусмотрены версии в формате fp8.

Контекст

Архитектура моделей базируется на Qwen3-VL-8B-Instruct и демонстрирует высокие показатели в бенчмарке Qwen-Image-Bench среди открытых решений. Модели ориентированы на эффективную работу с текстом, обеспечивая качественный рендеринг как на английском, так и на китайском языках.

Почему это важно для индустрии

Появление эффективных моделей, сопоставимых по качеству с закрытыми системами при использовании значительно меньшего объема обучающих данных, задает новый тренд на развитие компактных мультимодальных решений. Это упрощает создание специализированных AI-агентов и позволяет перенести фокус с гигантских облачных моделей на высокоэффективные системы, способные работать на потребительском железе.

Почему это важно для пользователей

Пользователи получают возможность запускать мощные инструменты генерации и правки изображений локально, не полагаясь на платные закрытые API вроде Midjourney или DALL-E. Благодаря Turbo-версиям и поддержке fp8, получение качественного результата становится быстрым и доступным даже на устройствах с ограниченными ресурсами.

Источники

Автор

Look at AI, редакция