Новая версия модели Flux2-Klein-9B-True-V3, базирующаяся на архитектуре Flux.2-klein-9B от Black Forest Labs, предлагает значительный прирост скорости генерации при сохранении высокого качества за счет оптимизированного квантования.



Что произошло
Разработчики представили дообученную версию модели Flux2-Klein-9B-True-V3, которая использует квантование INT8 и метод ConvRot (вариант QuaRot). В сочетании с расширением ComfyUI-INT8-Fast это позволяет увеличить скорость генерации в 1.5–2 раза по сравнению с форматом FP8.
Контекст
Для оптимизации весов тяжелой модели (9B параметров) был применен метод ConvRot, который минимизирует деградацию качества при переходе к низкобитному представлению данных. Это позволяет эффективно перенести инференс сложных диффузионных моделей с профессиональных ускорителей на стандартное оборудование.
Почему это важно для индустрии
Применение эффективных методов квантования, таких как INT8 через ConvRot, радикально снижает порог входа для работы с тяжелыми моделями. Это ускоряет цикл разработки и позволяет компаниям использовать менее дорогое оборудование для развертывания высококачественных диффузионных моделей, снижая операционные затраты на инференс.
Почему это важно для пользователей
Пользователи видеокарт NVIDIA RTX серии 30 и выше теперь могут запускать качественную модель Flux2-Klein с существенно большей скоростью через ComfyUI. Это делает профессиональный workflow локальной генерации доступным без необходимости использования облачных вычислений или мощных систем уровня A100/H100.
Источники
Автор
Look at AI, редакция
