
⚡️ ИИ-модель Qwen 3.5-Omni пишет код по видеогайдам
Alibaba выпустила Qwen 3.5-Omni - новую версию мультимодальной LLM. Нейросеть умеет одновременно обрабатывать текстовые, графические, аудио- и видеоданные.
Главное отличие Qwen 3.5-Omni - 256 тысяч токенов контекстного окна. Благодаря этому ИИ способен разом обработать более 10 часов аудио или примерно 400 секунд видео в разрешении 720p. Распознавание речи охватывает 113 языков и диалектов.
Модель была обучена на более чем 100 миллионах часов аудио- и видеоданных.
Модель «смотрит» запись экрана с аудиоинструкциями и пишет по этим данным работающий код без текстовых подсказок.
⁉️ Эта способность возникла случайно без тренировок)
Забираем здесь
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.