Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

https://habr.com/ru/articles/1022460/

#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна...

Хабр

Apache Superset 2026. Как работает Drill Down и Drill By

Работая с аналитикой, мы часто сталкиваемся с одной и той же проблемой: данные есть, но исследовать их неудобно. Представим типичную ситуацию. Есть таблица с десятками колонок и миллионами строк. Нужно понять, почему изменился какой-то показатель — например, выручка или конверсия. Обычно это превращается в цепочку SQL-запросов: сначала агрегируем данные по стране, потом по городу, потом по конкретному сегменту пользователей и тд. Если таких гипотез несколько, количество запросов быстро растёт с геометрической прогрессией. Каждый новый уровень детализации требует отдельного SQL. В какой-то момент хочется просто кликнуть по графику и мгновенно увидеть более детальные данные. Без написания нового запроса. Именно здесь на помощь приходят BI-инструменты. Один из самых популярных open-source инструментов для аналитики — Apache Superset .

https://habr.com/ru/articles/1010132/

#data_analyst #data_engineer #bi #sql #python #superset #apache

Apache Superset 2026. Как работает Drill Down и Drill By

Работая с аналитикой, мы часто сталкиваемся с одной и той же проблемой: данные есть, но исследовать их неудобно. Представим типичную ситуацию. Есть таблица с десятками колонок и миллионами строк....

Хабр

[Перевод] AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

https://habr.com/ru/articles/1002036/

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей...

Хабр

Кастомные lookup-операторы в Django ORM

В этой статье рассмотрим тему кастомных lookup-операторов в Django ORM. Они позволяют расширить стандартный синтаксис Django, интегрируя свои SQL-функции и алгоритмы, при этом сохраняя привычный вид фильтрации.

https://habr.com/ru/companies/otus/articles/883376/

#c# #Django_ORM #lookupоператоры #data_engineer

Кастомные lookup-операторы в Django ORM

Привет, Хабр! Сегодня рассмотрим тему кастомных lookup‑операторов в Django ORM. Они позволяют расширить стандартный синтаксис Django, интегрируя свои SQL‑функции и алгоритмы, при этом...

Хабр

Инфраструктура для Data-Engineer Liquibase

Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.

https://habr.com/ru/articles/863242/

#liquibase #iac #миграции_для_БД #описание_БД_как_код #версионирование_БД #git_для_БД #git_для_инфраструктуры #data_engineering #data_engineer #dba

Инфраструктура для Data-Engineer Liquibase

Введение Liquibase — это open-source решение для управления схемами и миграциями баз данных, которое позволяет разработчикам и инженерам данных: Отслеживать изменения структуры базы данных Применять...

Хабр

Рынок дата-инженеров и прогноз на 2025

В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.

https://habr.com/ru/articles/864780/

#data_engineering #data_engineer #стоит_ли_становиться_data_engineer #дата_инженер #найм_в_ит #найм_дата_инженеров #рынок_для_датаинженеров #рынок_по_работе_с_данными #что_будет_с_it_рынком #будущее_data_engineering

Рынок дата-инженеров и прогноз на 2025

Резюме видео Рынок дата-инженеров В своих видео и статьях я ни раз говорил о важности данных, не только потому что я работаю дата-инженером, но и также потому что все привыкли работать с данными....

Хабр

Инфраструктура для Data-Engineer виртуальные окружения

В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным проектом, правильная организация окружений поможет избежать конфликтов между пакетами и обеспечит воспроизводимость вашего кода.

https://habr.com/ru/articles/861412/

#виртуальные_окружения #data_engineering #data_engineer #разработка_на_python #python_разработка #работа_с_виртуальными_окружениями #poetry #venv #uv #conda

Инфраструктура для Data-Engineer виртуальные окружения

Введение В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным...

Хабр

Инфраструктура для Data-Engineer форматы файлов

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

https://habr.com/ru/articles/859968/

#json #avro #parquet #csv #orc #data_engineering #data_engineer #форматы_файлов #форматы_хранения #колоночные_файлы

Инфраструктура для Data-Engineer форматы файлов

Введение В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы...

Хабр

Будь T-shape

Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными. Почему важно быть не только специалистом в своей области, но и понимать, как работают другие направления? Почему T-shape подход лучше узкой специализации или полной универсальности?

https://habr.com/ru/articles/859850/

#data_engineering #data_engineer #tshape #ishape #развитие_в_it #карьера_в_it #что_учить #Что_изучать_в_IT #как_учиться_легко #как_учиться

Будь T-shape

Вступление Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными. Почему важно быть не только специалистом в своей области, но и...

Хабр

Инфраструктура для Data-Engineer BI-tools

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных. Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах. В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

https://habr.com/ru/articles/856922/

#bi #bitools #biинструменты #дата_инженер #дата_инжиниринг #data_engineer #analytics #аналитика_продукта #аналитика_компании #bigdata

Инфраструктура для Data-Engineer BI-tools

Введение BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных. Чаще всего BI-инструментами...

Хабр