Корпоративная аналитика долго жила вокруг понятной идеи: собрать данные в центральное хранилище, построить витрины, подключить BI и постепенно наращивать слой отчетности. Эта модель не исчезла. Более того, для многих компаний она до сих пор отлично работает. Но требования к данным стали шире, чем классический DWH-контур, каким бы зрелым он ни был.
Сегодня бизнес хочет не только регламентные отчеты. Ему нужны быстрые витрины, ad-hoc аналитика, воспроизводимая история, подготовка данных для ML/AI-сценариев, контроль качества, прослеживаемость данных, безопасный доступ, работа в своем контуре и понятная экономика владения. Когда всё это пытаются сложить в один большой аналитический кластер, платформа начинает напоминать не хранилище, а перегруженный вокзал: все поезда важные, все хотят отправиться вовремя, но пути одни и те же.
Data Lakehouse предлагает другую оптику. Данные хранятся в открытых форматах, вычислители выбираются под конкретную нагрузку, а быстрые витрины живут отдельно от исторического слоя. В cloud-мире эту идею упаковали в крупные платформы вроде Databricks. Но сам принцип не требует обязательно уходить в зарубежное облако. Большую часть Lakehouse-архитектуры можно развернуть на собственной инфраструктуре из компонентов с открытым кодом: Iceberg, Spark, Trino, ClickHouse, Airflow, объектное хранилище, каталог метаданных и слой безопасности.
Эта статья не про то, что Greenplum или MPP-DWH внезапно стали плохими. Скорее наоборот: чтобы выбрать архитектуру трезво, нужно понимать, где MPP остается сильным решением, а где современная lakehouse-архитектура дает больше свободы. Главный вопрос звучит не «какая технология моднее?», а «какая платформа позволит бизнесу расти без лишней зависимости от одного продукта, одного поставщика и одного способа масштабирования?»
Особенно острой тема стала для рынков России и СНГ, где к общим требованиям добавляется отдельный слой ограничений: санкционные риски, требования информационной безопасности, регуляторика, недоступность части зарубежных облачных сервисов и желание крупных организаций держать критичные данные в собственном контуре. По обзорам российского BI-рынка, импортозамещение перешло от пилотов к промышленной эксплуатации, а заказчики больше смотрят на архитектурную зрелость, безопасность, масштабирование, интеграцию и прозрачный TCO. На этом фоне идея Lakehouse становится особенно интересной: она родилась и активно развивалась в облачной среде, но ее базовые принципы не привязаны к облаку. Открытые форматы, разделение хранения и вычислений, разные движки поверх одного слоя данных и каталогизация метаданных применимы и в on-prem архитектуре.