⚡️ ИИ-модель Qwen 3.5-Omni пишет код по видеогайдам

Alibaba выпустила Qwen 3.5-Omni - новую версию мультимодальной LLM. Нейросеть умеет одновременно обрабатывать текстовые, графические, аудио- и видеоданные.

Главное отличие Qwen 3.5-Omni - 256 тысяч токенов контекстного окна. Благодаря этому ИИ способен разом обработать более 10 часов аудио или примерно 400 секунд видео в разрешении 720p. Распознавание речи охватывает 113 языков и диалектов.
Модель была обучена на более чем 100 миллионах часов аудио- и видеоданных.

Модель «смотрит» запись экрана с аудиоинструкциями и пишет по этим данным работающий код без текстовых подсказок.

⁉️ Эта способность возникла случайно без тренировок)

Забираем здесь