
GPT, который можно "потрогать руками"
Все объяснения работы GPT упираются в одно и то же: attention, эмбеддинги, softmax. Слова знакомые, а что реально происходит внутри — непонятно.
Корейский разработчик сделал ko-microgpt - крошечную GPT-модель, которая генерирует корейские имена и показывает каждый шаг прямо в браузере. Скроллишь страницу и видишь, как токен идёт через эмбеддинги, нормализацию, attention, MLP. Живые числа и веса на реальных данных.
Проект вырос из microgpt Андрея Карпати - той самой GPT на ~200 строк Python. Только здесь к модели прикрутили интерактивный интерфейс, и получилось супер наглядное объяснений трансформеров.
👩💻 Data Flow
Комментарии
0Комментариев пока нет.
Войдите, чтобы участвовать в обсуждении.