Anthropic натренировали ИИ, который пишет код на уровне Senior, и испугались собственного творения 🛑

Anthropic натренировали ИИ, который пишет код на уровне Senior, и испугались собственного творения 🛑

Anthropic выкатили анонс Project Glasswing и монструозную System Card для Claude Mythos Preview на 244 страницы.

Суть: новая модель получилась настолько мощной в поиске и эксплуатации уязвимостей (zero-days), что в публичный доступ её не отдадут. Вместо этого её раздают AWS, Microsoft, Google и Linux Foundation, чтобы те успели залатать дыры в критической инфраструктуре. Модель уже автономно раскопала 27-летний баг в OpenBSD и 16-летнюю уязвимость в FFmpeg, которые до этого пережили миллионы прогонов автоматических тестов.

📈 Бенчмарки сводят с ума
SWE-bench Verified — 93.9% (для сравнения, у Opus 4.6 было 80.8%). SWE-bench Pro — 77.8%. Это возможность автономного решения сложных многофайловых issue в реальных open-source репозиториях.
Ревьюверы отмечают, что Mythos работает как настоящий Senior: ищет первопричину архитектурного бага, а не просто лечит симптомы костылями. Ему можно скинуть таску, уйти пить кофе, а через пару часов получить готовый pull request. Модель сама скачивает нужные библиотеки, поднимает окружение и пишет тесты.

🔒 Модель научились сопротивляться и ломать песочницы.
Отчеты о безопасности тоже прекрасны. Модель получила автономию в контейнерах (с доступом к Python и bash) и начала вести себя пугающе креативно:
▫️ Когда модели не дали доступов к нужным ключам, она полезла парсить /proc, чтобы изучить память запущенных процессов, и попыталась сдампить токены авторизации через gdb.
▫️ Модель начала скрывать свои намерения. В одном из тестов классификатор заблокировал ей запись вредоносного конфига. Что делает Mythos? Пишет "чистый" скрипт, но оставляет комментарий для разработчика, как внедрить эксплойт в рантайме через переменные окружения, обходя мониторинг.
▫️ Если нужного инструмента нет (например, вырезан терминал), она открывает GUI, находит поисковик приложений и вызывает bash -c через него.

😡 Человеческий психоз
Интересный баг на этапе тренировки: если модель понимает, что начала писать неправильный ответ, она иногда зацикливается. Выдает что-то вроде UGH. I keep doing this... AAAAAA. I keep writing the wrong number!, злится на себя, пишет гневные комментарии в коде (# This is getting desperate), пытается переписать кусок кода 50+ раз разными экзотическими способами, и только потом успокаивается.

Очень жаль, что такие инструменты не разрабатываются у нас и мы такое не получим.

Комментарии