
🎧 ИИ научился слышать видео — и генерировать звук под каждый кадр.
Лаборатория Qwen выпустила PrismAudio — модель, которая смотрит на видео и сама придумывает звуковую дорожку. Не просто "что-то похожее", а с правильным таймингом, пространством и эстетикой.
Фишка в архитектуре: вместо одного монолитного мозга — 4 специализированных модуля рассуждений:
• 🟠 что за звуки на экране
• 🟠 когда именно они должны звучать
• 🟠 насколько естественно
• 🟠 где в стереопанораме
Каждый модуль обучается отдельно — поэтому качество по всем осям одновременно.
Результат: 0,63 секунды на генерацию 9-секундного видео. Лицензия MIT — открытый код.
Нюанс: извлечение признаков жрёт ~43 ГБ видеопамяти. Не для домашнего сервера.
MUSIN PRO
#AI #звук #генерация #opensource
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.