🎧 ИИ научился слышать видео — и генерировать звук под каждый кадр

🎧 ИИ научился слышать видео — и генерировать звук под каждый кадр.

Лаборатория Qwen выпустила PrismAudio — модель, которая смотрит на видео и сама придумывает звуковую дорожку. Не просто "что-то похожее", а с правильным таймингом, пространством и эстетикой.

Фишка в архитектуре: вместо одного монолитного мозга — 4 специализированных модуля рассуждений:
• 🟠 что за звуки на экране
• 🟠 когда именно они должны звучать
• 🟠 насколько естественно
• 🟠 где в стереопанораме

Каждый модуль обучается отдельно — поэтому качество по всем осям одновременно.

Результат: 0,63 секунды на генерацию 9-секундного видео. Лицензия MIT — открытый код.

Нюанс: извлечение признаков жрёт ~43 ГБ видеопамяти. Не для домашнего сервера.

MUSIN PRO

#AI #звук #генерация #opensource

Комментарии