Выпуск Flux2-Klein-9B-True-V3: ускорение генерации в 2 раза на...

Новая версия модели Flux2-Klein-9B-True-V3, базирующаяся на архитектуре Flux.2-klein-9B от Black Forest Labs, предлагает значительный прирост скорости генерации при сохранении высокого качества за счет оптимизированного квантования.

Что произошло

Разработчики представили дообученную версию модели Flux2-Klein-9B-True-V3, которая использует квантование INT8 и метод ConvRot (вариант QuaRot). В сочетании с расширением ComfyUI-INT8-Fast это позволяет увеличить скорость генерации в 1.5–2 раза по сравнению с форматом FP8.

Контекст

Для оптимизации весов тяжелой модели (9B параметров) был применен метод ConvRot, который минимизирует деградацию качества при переходе к низкобитному представлению данных. Это позволяет эффективно перенести инференс сложных диффузионных моделей с профессиональных ускорителей на стандартное оборудование.

Почему это важно для индустрии

Применение эффективных методов квантования, таких как INT8 через ConvRot, радикально снижает порог входа для работы с тяжелыми моделями. Это ускоряет цикл разработки и позволяет компаниям использовать менее дорогое оборудование для развертывания высококачественных диффузионных моделей, снижая операционные затраты на инференс.

Почему это важно для пользователей

Пользователи видеокарт NVIDIA RTX серии 30 и выше теперь могут запускать качественную модель Flux2-Klein с существенно большей скоростью через ComfyUI. Это делает профессиональный workflow локальной генерации доступным без необходимости использования облачных вычислений или мощных систем уровня A100/H100.

Источники

Автор

Look at AI, редакция