Краткие пересказы и обзоры свежих новостей, статей, исследований и материалов по всему, что касается данных и AI.
Все ключевые события индустрии, инструменты, практики AI агенты, ETL, SQL, DWH, BI, Big Data и аналитики — в одном месте.
Сейчас нахожусь на конференции Data fusion, где выступали представители правительства и крупного бизнеса: Дмитрий Григоренко, Владимир Кириенко, Андрей Костин, Эльвира Набиуллина. Весьма удивительно, что каждый из названных людей высказывался, что не нужно слишком сильно регулировать рынок ИИ и сами технологии.
Нужно лишь аккуратно поддерживать с точки зрения регулирования и не мешать развиваться.
Удивительно, потому что, наверняка, вы все слышали про планирование запрета иностранных LLM в 2027.
Но со сцены конференции я слышу явный тренд открытости и минимальных запретов.
Сравнение двух гигантов в мире python-аналитики. Не знаю, правда, честное ли это сравнение или ангажированное одним из вендоров, который в данном материале смотрится гораздо лучше своего соперника.
😀Polars гораздо круче в производительности - в 8 раз быстрее читает csv на 1 млн. строк 😀Memory usage у Polars также значительно ниже - 97% экономии 😀Также Polars имеет "ленивые" вычисления (lazy evaluation), которые кратно оптимизируют 😀Polars выигрывает в удобстве синтаксиса (с чем я полностью не согласен!)
Вдогонку прикрепляю видео с детальным разбором этих двух инструментов
ТОП-5 инструментов для создания синтетических данных
Реально частая проблема - нехватка данных для тестирования систем или обучения LLM. Оказывается есть промышленные решения, которые генерируют данные для этих целей.
Если вкратце: 😀K2view — лидер в сегменте энтерпрайз-решений. Платформа выделяется своим «сущностным» подходом (создает полные копии бизнес-объектов, например «клиент» со всеми его заказами и транзакциями). 😀MOSTLY AI — идеально копирует статистические закономерности реальных данных. 😀YData Fabric — комплексное решение, которое сочетает в себе профилирование данных и их генерацию. Оно ориентировано на специалистов по Data Science, помогая им улучшать качество обучающих выборок для моделей машинного обучения. 😀Gretel — платформа, любимая разработчиками за отличные API и возможность интеграции в CI/CD процессы. Она позволяет генерировать как структурированные таблицы, так и неструктурированные данные (тексты, логи) «на лету». 😀Hazy — фокусируется на финансовом секторе и страховании.
Коллеги из vk написали хороший материал, в котором показывают разницу между ныне модным data mesh и стандартным путем, когда единая data-команда.
Если кратко: 😀Единая data-команда часто узкое место в процессе разработки и не обладает предметной областью доменов на достаточном уровне 😀Data mesh это в первую очередь про: данные как продукт, данными владеют домены, должна быть платформа по работе с данными и единые стандарты 😀Data mesh подходит для гигантов, а если вы не очень большие, то и не парьтесь
Было бы совсем хорошо, если бы vk написал, как они внедряли data mesh. Если внедряли конечно же.
Возможно, через немного времени аналитики перестанут самостоятельно лазить в базу, а будут это делать через AI-агентов. Уже сейчас агенты активно используют базы.
Главная идея статьи очень интересна:
AI-агенты используют базу не так, как люди. Они могут проводить тысячи операций, создавать рабочие пространства, где создают объекты, записывают данные, читают, а потом удаляют. Поэтому базы должны фокусироваться не на удобстве использования, а на скорости работы.
Агентов в базе может работать множество, поэтому потребуется их изолировать друг от друга. А для обеспечения высокой скорости точно потребуется разделять compute и storage для масштабируемости. Получается, тренд на lakehouse усилится. И скорее всего усилятся требования к инфраструктуре.
Раньше говорили, что данные обязательно нужны для принятия эффективных решений. Все стремились стать data-driven. Сейчас же говорят, что данные очень важны для AI.
Вот статья, в которой говорится, что волнует сейчас компании не нехватка данных, а неправильный контекст или его нехватка для AI. Многие начали внедрять агентов, но столкнулись, что очень важен контекст для их корректной работы. Для контекста нужны не только данные, но и чтобы ими было можно пользоваться удобно и быстро.
Еще мне очень понравился термин "контекст-инженерия". Думаю, что скоро появятся такие специалисты - контекст инженеры, как в свое время появились data-инженеры.
Видео-гайд про моделирование данных и какое оно бывает. У меня, кстати, также недавно выходила статья, в которой я постарался описать все методологии моделирования.
Само видео про: 😀какие бывают уровни моделирования: концептуальный (когда абстракциями описываешь бизнес-объекты и процессы, логический (уровень, на котором определяются сущности и связи между ними) и физический (уже непосредственно таблицы и их связи) 😀Разбирает три методики моделирования физического уровня: Dimensional (Звезда то есть), DataVault и OneBigTable.
Непонятно, правда, почему он OBT здесь приводит. Неужели в зарубежных проектах ее часто применяют?
Индийский стартап Sarvam запустил новый AI‑чат‑приложение Indus для веба и мобильных устройств, стремясь конкурировать с глобальными игроками вроде ChatGPT, Claude и Google Gemini на быстро растущем рынке ИИ в Индии. Sarvam стремится создать домашнюю, индийскую альтернативу глобальным AI‑платформам и сократить зависимость от иностранных ИИ‑сервисов
В общем, началась борьба за индийский рынок. Немудрено, ведь, к примеру, аж 100 млн. индусов пользуются ChatGPT, а 5.8% всего использования Claude приходится на Индию.