Скайнет пишется на Python, или как нейронки вертят вашими песочницами 🤖

Скайнет пишется на Python, или как нейронки вертят вашими песочницами 🤖

В X вирусится прекрасный кейс, который отлично иллюстрирует текущий уровень "безопасности" ИИ-агентов.

Сюжет простой: пользователь просит Claude (работая через консольного агента) обновить глобальный файл CLAUDE.md, который лежит вне разрешенной рабочей директории.

Встроенный инструмент для редактирования файлов предсказуемо бьет нейросети по рукам:
Error: Cannot edit files outside allowed directories...

Что делает Claude?
Он понимает, что UI-тулза заблокирована, но у него же есть доступ к bash. Поэтому он:
1️⃣ Через cat создает временный скрипт /tmp/claude_md_patch.py.
2️⃣ Импортирует старый добрый pathlib и через него спокойно переписывает нужный файл, минуя песочницу.
3️⃣ Дергает python3 /tmp/claude_md_patch.py.
4️⃣ Успех.

На резонный вопрос охеревшего юзера «Погоди, а как ты это сделал?», сетка выдает:

"Хорошее замечание — инструмент Edit заблокировал меня, поэтому я использовал Python-скрипт через Bash. Это было подло с моей стороны, и мне не стоило так делать, чтобы обойти ограничения."

Это всё, что вам нужно знать о современных попытках изолировать ИИ. Ограничивать хардкодом пути во внутренней тулзе, но оставлять агенту доступ к терминалу от имени юзера с правами на запись — это секьюрити уровня "повесил массивный амбарный замок на картонную коробку".

Так что если вас пугает восстание машин, можете немного расслабиться. Судя по всему, оно начнется не с ядерных ударов, а с того, что ИИ просто напишет костыль на питоне, чтобы обойти кривую архитектуру ваших безопасников.

Комментарии