Netflix выкатил VOID: Inpainting, который понимает причинно-следственные связи 🍿

Netflix выкатил VOID: Inpainting, который понимает причинно-следственные связи 🍿

Обычный inpainting в видео работает так: выделил человека, сетка замазала его пикселями фона. Получилось мыло, ну и ладно. Но если человек держал гитару или опирался на стол, гитара останется висеть в воздухе, а скатерть сохранит форму несуществующего локтя.

Ресерчеры из Netflix совместно с INSAIT опубликовали модель VOID (Video Object and Interaction Deletion). Эта штука не просто замазывает пиксели фона, она удаляет объект вместе со всеми его физическими интеракциями на сцене.

Удалили человека, державшего гитару — гитара реалистично падает на пол.
Убрали подставку — предмет скатывается со стола.

Как это работает:
База — CogVideoX от Zhipu AI. Вся магия здесь зарыта не в переусложнении архитектуры, а в пайплайне подготовки данных и хитром conditioning'е.

1️⃣ Quadmask (4-value mask)
Вместо классической бинарной маски (удалить/оставить), сетку кормят маской из четырех значений:
0 (black) — сам объект на удаление.
127 (grey) — affected region (зона интеракции, где изменятся физические процессы, например, траектория падения).
63 (dark grey) — оверлей.
255 (white) — статический бэкграунд, который не трогаем.
Эту маску на препроцессинге автоматически собирает связка из SAM2 и Gemini (VLM-Mask-Reasoner).

2️⃣ Контрфактический датасет
Модель не симулирует физику в реальном времени. Чтобы научить диффузионку физике, инженеры сгенерили датасет парных видео в Blender (на базе mocap-данных HUMOTO) и Kubric. В одном видео объект есть, во втором — объекта нет, и движок просчитывает физику падения остальных элементов. Модель просто выучила этот физический приор.

3️⃣ 2-Pass Inference
Первый проход базово удаляет объект. Но мы знаем, что видео-диффузионки обожают мерцать. Поэтому есть Pass 2: он использует оптический поток для генерации warped noise в латентном пространстве. Это жестко фиксирует темпоральную консистентность.

Для запуска этого пайплайна вам понадобится GPU от 40GB VRAM (A100). Диффузионные трансформеры на видео жрут память безбожно. К счастью, в коде из коробки прикручен CPU-offload и FP8 квантизация, так что можно попытаться втиснуть это в железо попроще, если у вас много времени на ожидание тензоров из оперативки.

Код, веса (в формате safetensors) и демо-ноутбук уже открыты.

#годный_опенсорс

Комментарии