Выпуск LTX-2.3 Foley LoRA для синхронизированной генерации звуковых...

Представлено специализированное дополнение LTX-2.3 Foley LoRA, предназначенное для генерации реалистичных звуковых эффектов (Foley), синхронизированных с видеорядом в модели LTX-2.3.

Что произошло

Разработчики выпустили LoRA-модель, которая позволяет генерировать чистые звуки окружения, такие как шум кофемашины или закрытие двери, вместо навязываемой базовой моделью фоновой музыки. Для достижения оптимального результата рекомендуется использовать коэффициент использования от 1 до 3 и специфический суффикс промпта: «No speech is present. No music is present».

Контекст

Базовая модель LTX-2.3 часто сталкивается с проблемой неконтролируемого добавления музыкального фона вместо нужных звуковых эффектов. Данное решение фокусируется на задаче Video-to-Audio (V2A), обеспечивая более точное аудио-визуальное соответствие.

Почему это важно для индустрии

Развитие инструментов Video-to-Audio позволяет создавать более иммерсивный контент без необходимости сложного отдельного звукового дизайна. Это важный шаг к полной автоматизации создания видеороликов с качественным звуковым сопровождением и интеграции синхронного саунд-дизайна в стандартные мультимодальные пайплайны.

Почему это важно для пользователей

Пользователи LTX-2.3 теперь могут создавать качественные видеоролики с реалистичными звуками действий без необходимости сложной постобработки или привлечения внешних звукорежиссеров. Это снижает порог входа в профессиональный видеомонтаж и позволяет получать готовый продукт в рамках одного цикла генерации.

Что пока неизвестно / ограничения

Для промышленного использования требуются дополнительные данные о задержках (latency) и требованиях к ресурсам.

Источники

FuzzPuppy/LTX-2.3-Foley-LoRA · Hugging Face

Автор

Look at AI, редакция