Разработчики представили кастомный узел ComfyUI-Krea2TextEncoder, который позволяет использовать изображения и маски для уточнения промптов в модели Krea2 через механизмы vision-aware текстового кондиционирования.

image

Что произошло

Выпущен новый узел ComfyUI-Krea2TextEncoder для экосистемы ComfyUI, предназначенный для работы с моделью Krea2 (kreaturbo.safetensors). Инструмент использует модель Qwen3-VL-4B в качестве vision-aware энкодера, что позволяет динамически добавлять пары изображение+маска для управления процессом генерации. Узел корректно применяет шаблон дескриптора Krea2, обеспечивая совместимость с целевой моделью.

Контекст

Традиционные методы управления генерацией в DiT-моделях часто ограничены только текстовыми описаниями. Использование мультимодальных Vision-Language Models (VLM), таких как Qwen3-VL-4B, позволяет переводить визуальные сигналы в пространство признаков, понятное для текстового кондиционирования, создавая паттерн Vision-to-Prompt.

Почему это важно для индустрии

Этот инструмент расширяет возможности контроля в мультимодальных DiT-моделях, демонстрируя потенциал использования VLM-энкодеров для обогащения промптов. В долгосрочной перспективе это может привести к стандартизации подходов vision-to-text conditioning, где VLM станут связующим звеном между визуальным вводом и латентным пространством генеративных моделей.

Почему это важно для пользователей

Для профессиональных художников и дизайнеров, работающих в ComfyUI, это означает возможность гораздо более точного управления стилем и мелкими деталями. Вместо написания сложных текстовых описаний пользователи могут использовать конкретные области на картинках-образцах для управления итоговым результатом.

Что пока неизвестно / ограничения

Внедрение данного решения в реальные производственные процессы может потребовать оценки влияния дополнительного инференса VLM на задержку (latency) системы.

Источники

Автор

Look at AI, редакция