Посты по тегу «генерация»

🎭 Runway выпустил реалтайм-аватары — Characters.

Runway неожиданно зашли в нишу реалтайм-ассистентов. Под капотом — их новая world-модель GWM-1, хотя по ощущениям это шустрая LLM + диффузия с кучей костылей для реалтайм-видео сверху.

Качество неплохое, но есть нюансы: в конце фразы — кат и переключение на базовую анимацию, глаза в фотореализме немного плывут из-за дистилляции.

Из интересного:
— Аватар создаётся из одной картинки
— Кастомный голос и промпт
— Можно подключить свою базу знаний и встроить на сайт

На тесты дают 30 минут разговора — для Runway это неожиданная щедрость. Подробности в блоге Runway, попробовать — на app.runwayml.com, API для разработчиков — на dev.runwayml.com.

MUSIN PRO

#ИИ #Runway #аватары #генерация

🎧 ИИ научился слышать видео — и генерировать звук под каждый кадр.

Лаборатория Qwen выпустила PrismAudio — модель, которая смотрит на видео и сама придумывает звуковую дорожку. Не просто "что-то похожее", а с правильным таймингом, пространством и эстетикой.

Фишка в архитектуре: вместо одного монолитного мозга — 4 специализированных модуля рассуждений:
• 🟠 что за звуки на экране
• 🟠 когда именно они должны звучать
• 🟠 насколько естественно
• 🟠 где в стереопанораме

Каждый модуль обучается отдельно — поэтому качество по всем осям одновременно.

Результат: 0,63 секунды на генерацию 9-секундного видео. Лицензия MIT — открытый код.

Нюанс: извлечение признаков жрёт ~43 ГБ видеопамяти. Не для домашнего сервера.

MUSIN PRO

#AI #звук #генерация #opensource