Представлена SCAIL-2 — инновационная архитектура для end-to-end анимации персонажей, которая отказывается от промежуточных скелетных карт или масок в пользу прямого визуального управления. Модель, обученная на синтетическом датасете MotionPair-60K, позволяет выполнять не только анимацию по видео, но и замену персонажей, а также мультиперсонажную анимацию с высокой точностью движений.


Что произошло
Разработчики представили SCAIL-2, использующую латентную диффузионную модель с механизмами In-Context Mask Conditioning и Mode-Specific RoPE. Архитектура позволяет анимировать персонажей, используя видео-референсы напрямую, что обеспечивает точность даже в сложных движениях рук и пальцев благодаря методу Bias-Aware DPO.
Контекст
Традиционные методы анимации персонажей обычно полагаются на многоэтапные пайплайны, включающие оценку поз (pose estimation) и создание промежуточных скелетных моделей или масок. Такие подходы часто страдают от накопления ошибок и неоднозначности при перекрытии объектов в кадре.
Почему это важно для индустрии
SCAIL-2 устраняет ограничения промежуточных представлений, что упрощает пайплайны генерации видео и открывает путь к более естественной анимации в сложных сценах с несколькими героями. Это может привести к переходу индустрии от жестких скелетных систем к гибким диффузионным моделям прямого управления визуальными признаками.
Почему это важно для пользователей
Пользователи получают возможность осуществлять zero-shot анимацию, используя в качестве референсов не только людей, но и животных или видео от первого лица. Также технология позволяет легко заменять персонажей в готовых видео без потери качества и появления артефактов на стыках.
Что пока неизвестно / ограничения
Технология на текущем этапе представлена преимущественно в виде исследовательского кода и требует значительных вычислительных ресурсов для инференса из-за использования латентной диффузии. Необходима дальнейшая оценка готовности к промышленной эксплуатации (production-ready).
Источники
Автор
Look at AI, редакция
