🎪 Отмена чуда: как Милла Йовович и крипто-бро налюбили весь GitHub

Недавно мы разбирали архитектуру агента MemPalace, который обещал перевернуть игру в RAG, выбивал крутые метрики и хвастался инновационным "Дворцом Памяти" от голливудской актрисы.

Ну вот, независимые ревьюеры и комьюнити вскрыли исходники. Спойлер: чудес не бывает, а опенсорс-маркетинг окончательно мутировал в инфоцыганство 🤡

Вот как сейчас делаются "звездные" AI-проекты.

🕵️‍♂️ Драма в кулуарах
Как справедливо раскопали в X, соавтор проекта Бен Сигман — крипто-фаундер, чьи репозитории на 80% состоят из биткоин-скриптов. Код MemPalace и бенчмарки писал наемный разработчик Lu, которого нет ни в соавторах, ни в README. Всю git-историю тупо сплющили в один коммит и переписали на аккаунт Миллы Йовович (у которой 2 активных дня на GitHub за всю историю).

Но маркетинг — это ладно. А что по факту с результатами?

Разрыв между README и реальностью
Специалисты по агентной памяти сделали полный аудит и завели ишью, и оказалось, что документация проекта — это сборник сказок братьев Гримм:

1️⃣ "96.6% на LongMemEval"
Это подавалось как заслуга их "Дворца Памяти". На деле же этот скор получен в режиме raw — то есть при поиске по сырому, несжатому тексту "из коробки" в ChromaDB. Архитектура комнат и залов там даже не использовалась. Они просто замерили дефолтные эмбеддинги ChromaDB и выдали за свою инновацию.

2️⃣ "30-кратное сжатие без потерь" (AAAK)
Это вообще не компрессия. Это убогий скрипт на регулярках, который просто обрезает предложения до 55 символов. Восстановить исходный текст из этого нельзя (lossy-алгоритм). А знаете, как они считали токены, чтобы заявить о 30x сжатии? Через хардкод len(text) // 3.
Кстати, при включении этого "сжатия" скор в бенчмарках падает с 96.6% до 84.2%.

3️⃣ "Автоматическая детекция противоречий"
В коде knowledge_graph.py ее просто не существует. Факты тупо складируются в локальный SQLite.

4️⃣ "+34% буст от архитектуры Дворца"
Это обычная фильтрация по метаданным (когда мы сужаем поиск до конкретной wing или room). Стандартная фича любой векторной БД со времен царя Гороха, а не прорыв в RAG.

🏳️ Покаяние
Когда запахло жареным, авторы выкатили апдейт в репозитории. "Простите, мы неправильно считали токены, сжатие на самом деле с потерями, детекция противоречий пока не подключена, а метрики мы немного приукрасили".
"Спасибо за брутальную и честную критику", — написали они. Еще бы, когда комьюнити поймало вас за руку на подтасовке бенчмарков.

Обернуть стандартные методы библиотеки ChromaDB в красивую метафору "Чертогов разума", приправить медийным лицом и заявить о революции — вот что AI-хайп животворящий делает.

Комментарии