Узнать трафик крупного сайта? Посмотрите в счетчике LiveInternet и ТОП Mail
Старожилы Рунета наверняка помнят рейтинги LiveInternet и ТОП Mail, а кто-то и активно использовал их для медиапланирования. Открытые счетчики помогали оценить аудиторию сайта.
Почему информацию о посещаемости можно увидеть в открытом доступе? Все просто — на многих сайтах стоят не только счетчики Google Analytics и Яндекс Метрика, но и этих двух сервисов. Подписаться на Digital RE:source
1️⃣ Data Warehouse — строгая структура, ACID-транзакции, мощная аналитика. Но дорого и только структурированные данные.
2️⃣ Data Lake — дешёвое хранение любых данных на объектном хранилище. Но без транзакций и контроля качества озеро быстро превращается в «болото».
3️⃣ Data Lakehouse — лучшее из обоих миров. Единая платформа, которая объединяет гибкость озера и надёжность хранилища.
🌐 Что даёт Lakehouse? • Дешёвое хранилище (S3, ADLS, GCS) • ACID-транзакции поверх файлов (Parquet/ORC) • Гибкая эволюция схемы (Schema Evolution) • Поддержка BI, ML/AI и стриминга на одной копии данных
🌐 Ключевые платформы • Databricks + Delta Lake — максимальная производительность (Photon), встроенные MLflow и Unity Catalog • Snowflake — лидер в BI, нативная поддержка Apache Iceberg • Apache Iceberg — открытый формат, свободная лицензия, стандарт индустрии для мультидвижкового доступа
🌐 Medallion-архитектура (Bronze → Silver → Gold)
🥉 Bronze — сырые данные «как есть», append-only, полная история для аудита и повторной обработки.
🥈 Silver — очистка, дедупликация, нормализация. Данные валидированы и пригодны для анализа.
🥇 Gold — бизнес-агрегаты, KPI, дашборды. Готовые таблицы для аналитиков и стейкхолдеров.
🌐 3 шага для внедрения Lakehouse
1. Выберите открытый формат (Iceberg/Delta) и облачное хранилище — это фундамент, который защитит от vendor lock-in. 2. Организуйте данные по Medallion-слоям — Bronze для приёма, Silver для очистки, Gold для бизнес-метрик. 3. Подключите единый каталог и governance — контроль доступа, отслеживание происхождения данных и управление качеством данных с первого дня