В сеть попали веса новой модели генерации изображений Krea 2 (K2) от компании Krea, что позволяет использовать продвинутую мультимодальную архитектуру на локальных устройствах.



Что произошло
В открытый доступ попали веса модели Krea 2 (K2), построенной на архитектуре single-stream multimodal diffusion transformer с 12.9 млрд параметров. В качестве текстового энкодера используется Qwen3-VL-4B-Instruct, а в качестве VAE — автоэнкодер Qwen-Image. Сообщество уже выпустило Diffusers-версии для базовой (Base) и ускоренной (Turbo, 8 шагов) моделей, а также оптимизированные FP8-веса для работы на потребительских GPU с объемом памяти от 16 до 24 ГБ.
Контекст
Krea 2 представляет собой переход к архитектуре DiT (Diffusion Transformer), где текстовый и визуальный контексты интегрируются в единый поток. Использование мощных LLM-энкодеров, таких как Qwen3-VL, направлено на решение проблемы следования сложным инструкциям (prompt adherence).
Почему это важно для индустрии
Выход Krea 2 демонстрирует доминирование мультимодальных DiT-архитектур и интеграцию LLM в процессы генерации медиа. Это ускоряет исследования в области open-weights решений, сопоставимых по качеству с закрытыми API, и создает стандарт для будущих SOTA-моделей генерации.
Почему это важно для пользователей
Пользователи теперь могут запускать высококачественную генерацию уровня Krea локально через ComfyUI или Diffusers. Наличие FP8-версий делает модель доступной для владельцев видеокарт среднего и высокого сегмента (например, RTX 3090 или 4090), обеспечивая высокий уровень контроля стиля без необходимости платных облачных подписок.
Что пока неизвестно / ограничения
Существует разрыв между возможностями энтузиастов и корпоративным сектором: если для сообщества утечка — это инструмент кастомизации, то для Enterprise это критический риск нарушения комплаенса и прав на интеллектуальную собственность.
Источники
Автор
Look at AI, редакция
