S3 Архипелаг: разворачиваем объектное хранилище за 15 минут

На связи Илья Шуйков, руководитель продукта «Фабрика данных» компании Диасофт. В прошлой статье мы рассказали, зачем понадобилось строить свое объектное хранилище, и как устроен S3 Архипелаг изнутри. Теперь — практика: берем дистрибутив и разворачиваем рабочее хранилище.

https://habr.com/ru/companies/diasoft_company/articles/1032522/

#объектное_хранилище #хранилище #s3 #объектное_хранилище_s3 #хранение_данных #data_engineering #фабрика_данных #Digital_QDataFactory #S3_Архипелаг

S3 Архипелаг: разворачиваем объектное хранилище за 15 минут

На связи Илья Шуйков, руководитель продукта «Фабрика данных» компании Диасофт. В прошлой статье мы рассказали, зачем понадобилось строить свое объектное хранилище, и как устроен S3 Архипелаг изнутри....

Хабр

Как я сделал Variables в Airflow 3 удобнее

Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

https://habr.com/ru/articles/1023060/

#Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

Как я сделал Variables в Airflow 3 удобнее

Ровно год назад 22 апреля 2025 свет увидела новая версия Airflow 3.0.0 . Среди ключевых изменений — DAG versioning, улучшенный backfill и переход к event-driven scheduling, позволяющий реагировать на...

Хабр

От слов к числам: как математически отличить Middle от Senior

Привет, Хабр! В своей первой статье про анализ вакансий C#/.Net разработчиков на рынке я выделила очень интересное замечание, которое определило тему сегодняшней статьи – « не количество навыков делает из мидла синьора, а образ его мышления ». Построить граф связности компетенций для синьора это конечно хорошо, но к сожалению, на практике применить его достаточно сложно. Сделав упор на навыки в своем исследовании, я получила зашумленный датасет, не поддающийся адекватной кластеризации. Так что пришло время попытаться пересмотреть подход к использованию полученных данных и попытаться вычленить из них тот качественный скачок, который отделит мидла от синьора.

https://habr.com/ru/articles/1026186/

#c# #грейды #теория #data_science #data_engineering

От слов к числам: как математически отличить Middle от Senior

Привет, Хабр! В своей первой статье про анализ вакансий C#/.Net разработчиков на рынке я выделила очень интересное замечание, которое определило тему сегодняшней статьи – « не количество навыков...

Хабр

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту валюту подставили, забыли про скидку. Но после того как исходные данные трансформированы и отчет сформирован, но иногда бывают такие ситуации, когда вернуться к первоисточнику по какой-то причину уже нельзя. В FinOps эта ситуация — не метафора, а суровая реальность. Данные от облачных провайдеров доступны лишь в ограниченном окне (30–90 дней), а иногда и меньше. Если вы сначала обработали их, а потом поняли, что ошиблись, может так случиться, что перезапросить исходники уже не получится. В этой статье мы разберем два подхода к построению процессов обработки и преобразования данных — ETL и ELT — и докажем, почему для FinOps выбор ELT — это не просто вопрос производительности, а вопрос выживания исторических данных.

https://habr.com/ru/companies/inferit/articles/1025790/

#облачные_вычисления #finops #финопс #data_engineering #data_warehouse #itинфраструктура #big_data #управление_проектами #системная_архитектура #devops

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту...

Хабр

Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

https://habr.com/ru/companies/oleg-bunin/articles/1014750/

#Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от...

Хабр

ClickHouse не тормозит, но заставляет глаз дергаться. Materialized Views

Вы пришли из мира PostgreSQL, Oracle или MSSQL. Вы знаете: материализованное представление — это «замороженный» результат запроса. Удобно. Предсказуемо. Вы открываете документацию ClickHouse. Видите знакомые слова. Радуетесь. Пишете свой первый MATERIALIZED VIEW. Запускаете. И... получаете не то, что ожидали. Потому что в ClickHouse материализованные представления работают СОВСЕМ не так, как везде.

https://habr.com/ru/articles/1025184/

#clickhouse #materialized_view #базы_данных #sql #nosq #bigdata #data_engineering

ClickHouse не тормозит, но заставляет глаз дергаться. Materialized Views

Вы пришли из мира PostgreSQL, Oracle или MSSQL. Вы знаете: материализованное представление — это «замороженный» результат запроса. Удобно. Предсказуемо. Вы открываете документацию ClickHouse. Видите...

Хабр

Декларативный Data Pipeline

В статье разберём, как построить декларативный data pipeline на Python: от базовых идей до реализации собственного мини-фреймворка с шагами, контекстом и SQL-интеграцией. Декларативный data pipeline

https://habr.com/ru/articles/1025014/

#data_engineering #framework #python

Декларативный Data Pipeline

Автор работал в различных дата-инженерных проектах и иногда проекты представляют собой набор модулей без логики и без общего подхода. Поэтому цель статьи - разработать этот общий подход и заодно...

Хабр

[Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV

https://habr.com/ru/companies/otus/articles/1024158/

#CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl

Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

Представьте: 2:30 ночи. Офис пуст. Кофе давно остыл, а вы безучастно смотрите на экран, который издевательски показывает: Error: Could not convert string 'N/A' to INTEGER on line 56,789 . Всё, что вам...

Хабр

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Часто полезные данные для обучения ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков, катается на велосипеде, объезжает пробки, вводит капчу — а где-то фоново формируется датасет. Это уже много обсуждали в комментариях к истории использования данных Pokémon Go для обучения пространственного ИИ (spatial AI). В этом материале я расскажу о кейсе Pokémon Go и о том, как работает использование данных из приложений.

https://habr.com/ru/companies/ru_mts/articles/1023688/

#искусственный_интеллект #датасет #data_engineering #данные #сбор_данных_для_ии

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Часто полезные данные для обучения ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков,...

Хабр

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона ( bronze , silver , gold уровни) для эффективной работы с большими данными, чтобы избежать превращения хранилищ в бесполезное «болото данных». Автор делится реальными кейсами и примерами кода для Microsoft Fabric и Azure Databricks , объясняет, как интегрировать медальон в data mesh , и рассматривает вопросы безопасности, контрактов данных и применения генеративного ИИ. Книга будет полезна дата-инженерам, архитекторам и руководителям, ищущим проверенные решения для построения востребованной и управляемой аналитики.

https://habr.com/ru/companies/piter/articles/1021230/

#архитектура_медальона #архитектура #github #базы_данных #data_engineering #big_data

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Объемы данных растут экспоненциально, а опасность оказаться в «болоте данных» (data swamp) подстерегает на каждом шагу? Чтобы получить ценную аналитику, которая обеспечит...

Хабр