ProData | Про Data и AI

55 подписчиков 8 постов Рейтинг 0

Краткие пересказы и обзоры свежих новостей, статей, исследований и материалов по всему, что касается данных и AI. Все ключевые события индустрии, инструменты, практики AI агенты, ETL, SQL, DWH, BI, Big Data и аналитики — в одном месте.

Посты

Наука и Технологии 8 апр

ИИ и российский регулятор

Сейчас нахожусь на конференции Data fusion, где выступали представители правительства и крупного бизнеса: Дмитрий Григоренко, Владимир Кириенко, Андрей Костин, Эльвира Набиуллина. Весьма удивительно, что каждый из названных людей высказывался, что не нужно слишком сильно регулировать рынок ИИ и сами технологии.

Нужно лишь аккуратно поддерживать с точки зрения регулирования и не мешать развиваться.

Удивительно, потому что, наверняка, вы все слышали про планирование запрета иностранных LLM в 2027.

Но со сцены конференции я слышу явный тренд открытости и минимальных запретов.

Что ж, надеюсь, все это были не только слова.

ProData | Про Data и AI

Наука и Технологии 8 апр

😀 vs 😀 - сравнение Pandas и Polars

😀 vs 😀 - сравнение Pandas и Polars

Сравнение двух гигантов в мире python-аналитики. Не знаю, правда, честное ли это сравнение или ангажированное одним из вендоров, который в данном материале смотрится гораздо лучше своего соперника.

😀Polars гораздо круче в производительности - в 8 раз быстрее читает csv на 1 млн. строк
😀Memory usage у Polars также значительно ниже - 97% экономии
😀Также Polars имеет "ленивые" вычисления (lazy evaluation), которые кратно оптимизируют
😀Polars выигрывает в удобстве синтаксиса (с чем я полностью не согласен!)

Вдогонку прикрепляю видео с детальным разбором этих двух инструментов

#polars #pandas #инструменты

😀 Читать статью
📱 Смотреть видео

ProData | Про Data и AI

Наука и Технологии 3 апр

ТОП-5 инструментов для создания синтетических данных

ТОП-5 инструментов для создания синтетических данных

Реально частая проблема - нехватка данных для тестирования систем или обучения LLM. Оказывается есть промышленные решения, которые генерируют данные для этих целей.

Если вкратце:
😀K2view — лидер в сегменте энтерпрайз-решений. Платформа выделяется своим «сущностным» подходом (создает полные копии бизнес-объектов, например «клиент» со всеми его заказами и транзакциями).
😀MOSTLY AI — идеально копирует статистические закономерности реальных данных.
😀YData Fabric — комплексное решение, которое сочетает в себе профилирование данных и их генерацию. Оно ориентировано на специалистов по Data Science, помогая им улучшать качество обучающих выборок для моделей машинного обучения.
😀Gretel — платформа, любимая разработчиками за отличные API и возможность интеграции в CI/CD процессы. Она позволяет генерировать как структурированные таблицы, так и неструктурированные данные (тексты, логи) «на лету».
😀Hazy — фокусируется на финансовом секторе и страховании.

#инструменты

Читать

ProData | Про Data и AI

Наука и Технологии 29 март

Data mesh vs централизованное управление

Коллеги из vk написали хороший материал, в котором показывают разницу между ныне модным data mesh и стандартным путем, когда единая data-команда.

Если кратко:
😀Единая data-команда часто узкое место в процессе разработки и не обладает предметной областью доменов на достаточном уровне
😀Data mesh это в первую очередь про: данные как продукт, данными владеют домены, должна быть платформа по работе с данными и единые стандарты
😀Data mesh подходит для гигантов, а если вы не очень большие, то и не парьтесь

Было бы совсем хорошо, если бы vk написал, как они внедряли data mesh. Если внедряли конечно же.

Читать

ProData | Про Data и AI

Наука и Технологии 25 март

😀 +😀AI - новый пользователь БД

😀 +😀AI - новый пользователь БД

Возможно, через немного времени аналитики перестанут самостоятельно лазить в базу, а будут это делать через AI-агентов. Уже сейчас агенты активно используют базы.

Главная идея статьи очень интересна:

AI-агенты используют базу не так, как люди. Они могут проводить тысячи операций, создавать рабочие пространства, где создают объекты, записывают данные, читают, а потом удаляют. Поэтому базы должны фокусироваться не на удобстве использования, а на скорости работы.

Агентов в базе может работать множество, поэтому потребуется их изолировать друг от друга. А для обеспечения высокой скорости точно потребуется разделять compute и storage для масштабируемости. Получается, тренд на lakehouse усилится. И скорее всего усилятся требования к инфраструктуре.

thenewstack.io/databases-for-ai-agents/

ProData | Про Data и AI

Наука и Технологии 21 март

Данные и AI-агенты

Раньше говорили, что данные обязательно нужны для принятия эффективных решений. Все стремились стать data-driven. Сейчас же говорят, что данные очень важны для AI.

Вот статья, в которой говорится, что волнует сейчас компании не нехватка данных, а неправильный контекст или его нехватка для AI. Многие начали внедрять агентов, но столкнулись, что очень важен контекст для их корректной работы. Для контекста нужны не только данные, но и чтобы ими было можно пользоваться удобно и быстро.

Еще мне очень понравился термин "контекст-инженерия". Думаю, что скоро появятся такие специалисты - контекст инженеры, как в свое время появились data-инженеры.

Читать

ProData | Про Data и AI

Наука и Технологии 17 март

📱 Моделирование данных

📱 Моделирование данных

Видео-гайд про моделирование данных и какое оно бывает. У меня, кстати, также недавно выходила статья, в которой я постарался описать все методологии моделирования.

Само видео про:
😀какие бывают уровни моделирования: концептуальный (когда абстракциями описываешь бизнес-объекты и процессы, логический (уровень, на котором определяются сущности и связи между ними) и физический (уже непосредственно таблицы и их связи)
😀Разбирает три методики моделирования физического уровня: Dimensional (Звезда то есть), DataVault и OneBigTable.

Непонятно, правда, почему он OBT здесь приводит. Неужели в зарубежных проектах ее часто применяют?

Смотреть видео

ProData | Про Data и AI

Наука и Технологии 12 март

😀Indus AI

😀Indus AI. Индия делает свой ChatGPT.

Индийский стартап Sarvam запустил новый AI‑чат‑приложение Indus для веба и мобильных устройств, стремясь конкурировать с глобальными игроками вроде ChatGPT, Claude и Google Gemini на быстро растущем рынке ИИ в Индии. Sarvam стремится создать домашнюю, индийскую альтернативу глобальным AI‑платформам и сократить зависимость от иностранных ИИ‑сервисов

В общем, началась борьба за индийский рынок. Немудрено, ведь, к примеру, аж 100 млн. индусов пользуются ChatGPT, а 5.8% всего использования Claude приходится на Индию.

#ai #новости

Оригинал