Разработчики представили кастомный узел ComfyUI-Krea2TextEncoder, который позволяет использовать изображения и маски для уточнения промптов в модели Krea2 через механизмы vision-aware текстового кондиционирования.

Что произошло
Выпущен новый узел ComfyUI-Krea2TextEncoder для экосистемы ComfyUI, предназначенный для работы с моделью Krea2 (kreaturbo.safetensors). Инструмент использует модель Qwen3-VL-4B в качестве vision-aware энкодера, что позволяет динамически добавлять пары изображение+маска для управления процессом генерации. Узел корректно применяет шаблон дескриптора Krea2, обеспечивая совместимость с целевой моделью.
Контекст
Традиционные методы управления генерацией в DiT-моделях часто ограничены только текстовыми описаниями. Использование мультимодальных Vision-Language Models (VLM), таких как Qwen3-VL-4B, позволяет переводить визуальные сигналы в пространство признаков, понятное для текстового кондиционирования, создавая паттерн Vision-to-Prompt.
Почему это важно для индустрии
Этот инструмент расширяет возможности контроля в мультимодальных DiT-моделях, демонстрируя потенциал использования VLM-энкодеров для обогащения промптов. В долгосрочной перспективе это может привести к стандартизации подходов vision-to-text conditioning, где VLM станут связующим звеном между визуальным вводом и латентным пространством генеративных моделей.
Почему это важно для пользователей
Для профессиональных художников и дизайнеров, работающих в ComfyUI, это означает возможность гораздо более точного управления стилем и мелкими деталями. Вместо написания сложных текстовых описаний пользователи могут использовать конкретные области на картинках-образцах для управления итоговым результатом.
Что пока неизвестно / ограничения
Внедрение данного решения в реальные производственные процессы может потребовать оценки влияния дополнительного инференса VLM на задержку (latency) системы.
Источники
Автор
Look at AI, редакция
