Интеграция с ClickHouse: NiFi vs Airflow

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

https://habr.com/ru/companies/w_code/articles/917514/

#интеграция #сравнение #clickhouse #apache_airflow #nifi

Интеграция с ClickHouse: NiFi vs Airflow

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием...

Хабр

Cloud Composer でカスタムセンサーを実装して Storage Transfer Service のオペレーション完了を待機する
https://dev.classmethod.jp/articles/cloud-composer-custom-sensor-storage-transfer-service/

#dev_classmethod #Google_Cloud_GCP #Cloud_Composer #Storage_Transfer_Service #Apache_Airflow

Cloud Composer でカスタムセンサーを実装して Storage Transfer Service のオペレーション完了を待機する | DevelopersIO

Cloud Composer でカスタムセンサーを実装して Storage Transfer Service のオペレーション完了を待機する | DevelopersIO

Долгожданный релиз Airflow 3.0.0

Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

https://habr.com/ru/articles/913464/

#airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

Долгожданный релиз Airflow 3.0.0

Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и...

Хабр

Планировщики процессов — другие open source решения

Такие workflow-оркестраторы, как Metaflow или Apache Airflow, на слуху. Однако в их тени существуют не менее интересные решения — например, StepWise, Dagu, Windmill, Flyte и µTask. Они предоставляют интересные возможности для автоматизации, ускорения и упрощения настройки сложных workflow, и часто обладают более современной архитектурой, меньшим порогом входа или ярко выраженной специализацией для типовых задач. Сегодня познакомимся подробнее с инструментами, которые расширят ваш арсенал и помогут создавать более надёжные и экономичные системы.

https://habr.com/ru/companies/mws/articles/909790/

#metaflow #apache_airflow #StepWise #Dagu #Windmill #Flyte #workflow #работа_с_данными

Планировщики процессов — другие open source решения

Такие workflow-оркестраторы, как Metaflow или Apache Airflow, на слуху. Однако в их тени существуют не менее интересные решения — например, StepWise, Dagu, Windmill, Flyte и µTask. Они предоставляют...

Хабр

Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

https://habr.com/ru/articles/889394/

#apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator Создание виртуального окружения с необходимыми библиотеками Создание задачи в даге и установка окружения с SparkSubmit Создание...

Хабр
Cloud Composer で DAG 解析時間アラートを設定してみた | DevelopersIO

Cloud Composer で DAG 解析時間アラートを設定してみた | DevelopersIO

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

https://habr.com/ru/articles/882040/

#машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По...

Хабр
Cloud Composer で Airflow タスクの SLA を設定してみた | DevelopersIO

Cloud Composer で Airflow タスクの SLA を設定してみた | DevelopersIO

СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

https://habr.com/ru/articles/874262/

#apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который...

Хабр

Как мы деплоем Apache Airflow для промышленного использования в Kubernetes

Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией. Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от обеспечения безопасности конфиденциальных данных до эффективного управления ресурсами. Одной из ключевых проблем, с которыми сталкиваются команды, является безопасное управление секретами, оптимизация конфигураций и наблюдаемость. В этой статье мы рассмотрим, как использовать инструменты, такие как Sops и YAML-якоря, для упрощения управления конфиденциальными данными и улучшения читаемости конфигураций. А так же как обеспечить полную наблюдаемость инсталляции Apache Airflow

https://habr.com/ru/articles/871660/

#apache_airflow #observability #kubernetes #production

Как мы деплоим Apache Airflow для промышленного использования в Kubernetes

Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией. Развертывание Apache Airflow в промышленной среде — это сложная...

Хабр