Возможно, через немного времени аналитики перестанут самостоятельно лазить в базу, а будут это делать через AI-агентов. Уже сейчас агенты активно используют базы.
Главная идея статьи очень интересна:
AI-агенты используют базу не так, как люди. Они могут проводить тысячи операций, создавать рабочие пространства, где создают объекты, записывают данные, читают, а потом удаляют. Поэтому базы должны фокусироваться не на удобстве использования, а на скорости работы.
Агентов в базе может работать множество, поэтому потребуется их изолировать друг от друга. А для обеспечения высокой скорости точно потребуется разделять compute и storage для масштабируемости. Получается, тренд на lakehouse усилится. И скорее всего усилятся требования к инфраструктуре.
1️⃣ Data Warehouse — строгая структура, ACID-транзакции, мощная аналитика. Но дорого и только структурированные данные.
2️⃣ Data Lake — дешёвое хранение любых данных на объектном хранилище. Но без транзакций и контроля качества озеро быстро превращается в «болото».
3️⃣ Data Lakehouse — лучшее из обоих миров. Единая платформа, которая объединяет гибкость озера и надёжность хранилища.
🌐 Что даёт Lakehouse? • Дешёвое хранилище (S3, ADLS, GCS) • ACID-транзакции поверх файлов (Parquet/ORC) • Гибкая эволюция схемы (Schema Evolution) • Поддержка BI, ML/AI и стриминга на одной копии данных
🌐 Ключевые платформы • Databricks + Delta Lake — максимальная производительность (Photon), встроенные MLflow и Unity Catalog • Snowflake — лидер в BI, нативная поддержка Apache Iceberg • Apache Iceberg — открытый формат, свободная лицензия, стандарт индустрии для мультидвижкового доступа
🌐 Medallion-архитектура (Bronze → Silver → Gold)
🥉 Bronze — сырые данные «как есть», append-only, полная история для аудита и повторной обработки.
🥈 Silver — очистка, дедупликация, нормализация. Данные валидированы и пригодны для анализа.
🥇 Gold — бизнес-агрегаты, KPI, дашборды. Готовые таблицы для аналитиков и стейкхолдеров.
🌐 3 шага для внедрения Lakehouse
1. Выберите открытый формат (Iceberg/Delta) и облачное хранилище — это фундамент, который защитит от vendor lock-in. 2. Организуйте данные по Medallion-слоям — Bronze для приёма, Silver для очистки, Gold для бизнес-метрик. 3. Подключите единый каталог и governance — контроль доступа, отслеживание происхождения данных и управление качеством данных с первого дня