Skip Navigation
Telegram
😀 +😀AI - новый пользователь БД
😀 +😀AI - новый пользователь БД

Возможно, через немного времени аналитики перестанут самостоятельно лазить в базу, а будут это делать через AI-агентов. Уже сейчас агенты активно используют базы.

Главная идея статьи очень интересна:
AI-агенты используют базу не так, как люди. Они могут проводить тысячи операций, создавать рабочие пространства, где создают объекты, записывают данные, читают, а потом удаляют. Поэтому базы должны фокусироваться не на удобстве использования, а на скорости работы.

Агентов в базе может работать множество, поэтому потребуется их изолировать друг от друга. А для обеспечения высокой скорости точно потребуется разделять compute и storage для масштабируемости. Получается, тренд на lakehouse усилится. И скорее всего усилятся требования к инфраструктуре.

thenewstack.io/databases-for-ai-agents/
Telegram
🏠 Lakehouse: союз озера данных и хранилища


🏠 Lakehouse: союз озера данных и хранилища

Data-архитектура прошла три эпохи:

1️⃣ Data Warehouse — строгая структура, ACID-транзакции, мощная аналитика. Но дорого и только структурированные данные.

2️⃣ Data Lake — дешёвое хранение любых данных на объектном хранилище. Но без транзакций и контроля качества озеро быстро превращается в «болото».

3️⃣ Data Lakehouse — лучшее из обоих миров. Единая платформа, которая объединяет гибкость озера и надёжность хранилища.

🌐 Что даёт Lakehouse?
• Дешёвое хранилище (S3, ADLS, GCS)
ACID-транзакции поверх файлов (Parquet/ORC)
• Гибкая эволюция схемы (Schema Evolution)
• Поддержка BI, ML/AI и стриминга на одной копии данных

🌐 Ключевые платформы
• Databricks + Delta Lake — максимальная производительность (Photon), встроенные MLflow и Unity Catalog
• Snowflake — лидер в BI, нативная поддержка Apache Iceberg
Apache Iceberg — открытый формат, свободная лицензия, стандарт индустрии для мультидвижкового доступа

🌐 Medallion-архитектура (Bronze → Silver → Gold)

🥉 Bronze — сырые данные «как есть», append-only, полная история для аудита и повторной обработки.

🥈 Silver — очистка, дедупликация, нормализация. Данные валидированы и пригодны для анализа.

🥇 Gold — бизнес-агрегаты, KPI, дашборды. Готовые таблицы для аналитиков и стейкхолдеров.

🌐 3 шага для внедрения Lakehouse

1. Выберите открытый формат (Iceberg/Delta) и облачное хранилище — это фундамент, который защитит от vendor lock-in.
2. Организуйте данные по Medallion-слоям — Bronze для приёма, Silver для очистки, Gold для бизнес-метрик.
3. Подключите единый каталог и governance — контроль доступа, отслеживание происхождения данных и управление качеством данных с первого дня

🌐 Примеры применения Lakehouse в российских компаниях:
1. Магнит
2. "АБ Тех" для неназванного строительного холдинга

#DataArchitecture #Lakehouse #DataEngineering #Analytics