SCAIL-2: новая архитектура сквозной анимации персонажей без использования скелетов и масок

Представлена SCAIL-2 — инновационная архитектура для end-to-end анимации персонажей, которая отказывается от промежуточных скелетных карт или масок в пользу прямого визуального управления. Модель, обученная на синтетическом датасете MotionPair-60K, позволяет выполнять не только анимацию по видео, но и замену персонажей, а также мультиперсонажную анимацию с высокой точностью движений.

Что произошло

Разработчики представили SCAIL-2, использующую латентную диффузионную модель с механизмами In-Context Mask Conditioning и Mode-Specific RoPE. Архитектура позволяет анимировать персонажей, используя видео-референсы напрямую, что обеспечивает точность даже в сложных движениях рук и пальцев благодаря методу Bias-Aware DPO.

Контекст

Традиционные методы анимации персонажей обычно полагаются на многоэтапные пайплайны, включающие оценку поз (pose estimation) и создание промежуточных скелетных моделей или масок. Такие подходы часто страдают от накопления ошибок и неоднозначности при перекрытии объектов в кадре.

Почему это важно для индустрии

SCAIL-2 устраняет ограничения промежуточных представлений, что упрощает пайплайны генерации видео и открывает путь к более естественной анимации в сложных сценах с несколькими героями. Это может привести к переходу индустрии от жестких скелетных систем к гибким диффузионным моделям прямого управления визуальными признаками.

Почему это важно для пользователей

Пользователи получают возможность осуществлять zero-shot анимацию, используя в качестве референсов не только людей, но и животных или видео от первого лица. Также технология позволяет легко заменять персонажей в готовых видео без потери качества и появления артефактов на стыках.

Что пока неизвестно / ограничения

Технология на текущем этапе представлена преимущественно в виде исследовательского кода и требует значительных вычислительных ресурсов для инференса из-за использования латентной диффузии. Необходима дальнейшая оценка готовности к промышленной эксплуатации (production-ready).

Источники

Автор

Look at AI, редакция