Представлено специализированное дополнение LTX-2.3 Foley LoRA, предназначенное для генерации реалистичных звуковых эффектов (Foley), синхронизированных с видеорядом в модели LTX-2.3.
Что произошло
Разработчики выпустили LoRA-модель, которая позволяет генерировать чистые звуки окружения, такие как шум кофемашины или закрытие двери, вместо навязываемой базовой моделью фоновой музыки. Для достижения оптимального результата рекомендуется использовать коэффициент использования от 1 до 3 и специфический суффикс промпта: «No speech is present. No music is present».
Контекст
Базовая модель LTX-2.3 часто сталкивается с проблемой неконтролируемого добавления музыкального фона вместо нужных звуковых эффектов. Данное решение фокусируется на задаче Video-to-Audio (V2A), обеспечивая более точное аудио-визуальное соответствие.
Почему это важно для индустрии
Развитие инструментов Video-to-Audio позволяет создавать более иммерсивный контент без необходимости сложного отдельного звукового дизайна. Это важный шаг к полной автоматизации создания видеороликов с качественным звуковым сопровождением и интеграции синхронного саунд-дизайна в стандартные мультимодальные пайплайны.
Почему это важно для пользователей
Пользователи LTX-2.3 теперь могут создавать качественные видеоролики с реалистичными звуками действий без необходимости сложной постобработки или привлечения внешних звукорежиссеров. Это снижает порог входа в профессиональный видеомонтаж и позволяет получать готовый продукт в рамках одного цикла генерации.
Что пока неизвестно / ограничения
Для промышленного использования требуются дополнительные данные о задержках (latency) и требованиях к ресурсам.
Источники
Автор
Look at AI, редакция