Mastodawn

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится...

Хабр

Habr May 29

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы. В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение. В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

https://habr.com/ru/companies/avito/articles/913694/

#M42 #bigdata #clickhouse #python #data_analysis #data_engineering #data_structures #storage #adhocанализ #adhoc

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша...

Хабр

Habr May 27

Как я учился на аналитика данных

Привет! Меня зовут Игорь Кальченко, я ML-разработчик в МТС AdTech. Больше полугода назад я окончил Школу аналитиков данных МТС. Это были насыщенные и интересные 10 месяцев, о которых я расскажу в этом тексте. Дисклеймер: это опыт одного выпускника программы, и он может расходиться с другими оценками, я не претендую на истину в последней инстанции.

https://habr.com/ru/companies/ru_mts/articles/912282/

#МТС_true_tech_talent #школа_аналитиков_данных_МТС #стажировка #менторство #карьера_в_itиндустрии #учебный_процесс #анализ_данных #data_engineering

Как я учился на аналитика данных

Привет! Меня зовут Игорь Кальченко, я ML-разработчик в МТС AdTech. Больше полугода назад я окончил Школу аналитиков данных МТС. Это были насыщенные и интересные 10 месяцев, о которых я расскажу в этом...

Хабр

Habr May 23

Топ-статей Saint HighLoad++ 2025

В этом году Saint HighLoad++ снова собирает экспертов индустрии на берегу Невы. А я уже знаю, какие темы вызовут настоящий хайп среди инженеров и разработчиков. Ловите инсайдерскую подборку топовых статей самых ожидаемых докладов конференции: только практика, реальные факапы и технологические прорывы.

https://habr.com/ru/companies/oleg-bunin/articles/912138/

#highload++ #архитектура #базы_данных #системы_хранения #platform_engineering #безопасность #эксплуатация_систем #data_science #тестирование #data_engineering

Топ-статей Saint HighLoad++ 2025

В этом году Saint HighLoad++ снова собирает экспертов индустрии на берегу Невы. А я уже знаю, какие темы вызовут настоящий хайп среди инженеров и разработчиков. Ловите инсайдерскую подборку самых...

Хабр

Habr May 19

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий. Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

https://habr.com/ru/companies/profi_ru/articles/910768/

#данные #инженер #data_engineering #data_structures #data #аналитика #аналитика_данных #система_хранения_данных #архитектура_систем

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий. Поэтому мы...

Хабр

Habr 25+May 15

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов

В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования ускорить обработку данных, как правильно настраивать оконные функции и запускать множество небольших Spark-приложений внутри одного процесса для экономии ресурсов. Привет, Хабр! Меня зовут Александр Маркачев и я — Data Engineer команды Голосовой Антифрод в билайн. Расскажу, как борьба с мошенниками может обернуться личным вызовом. Все техники сопровождаются объяснениями, примерами и рекомендациями для самостоятельного повторения.

https://habr.com/ru/companies/oleg-bunin/articles/909506/

#spark #bigdata #data_engineering #билайн #онтико #оптимизация #многопоточность #apache_spark #beeline

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов

Билайн давно борется с мошенниками, как и все крупные операторы сотовой связи. Однако формирование множества отчётов для регулятора неожиданно стал для меня вызовом. Привет, Хабр! Меня зовут Александр...

Хабр

Fabian 🌵May 11

In late February, I was on SQL Konferenz 2025 in Hanau. Overall, it was a very nice visit with many interesting sessions 💡

Read here: https://www.fabianstadler.com/2025/05/sql_conference_2025.html

#data_engineering #sql #conference #development

My Thoughts on SQL Conference 2025 | Fabian Stadler

At the end of February, I was able to visit SQL Conference 2025 in Hanau. In this article, I want to showcase my highlights and thoughts on it.

Fabian Stadler

Habr May 7

Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join , а также паттерны дедупликации. Уделено внимание использованию KeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

https://habr.com/ru/articles/907664/

#apache_flink #bigdata #java #data_engineering

Join таблиц в реальном времени на Apache Flink

Допустим есть 2 таблицы в любой реляционной базе данных. Таблица users весом 4TB id firstname lastname 1 Egor Myasnik 2 Pavel Hvastun 3 Mitya Volk Таблица domains 2TB id user_id domain_name 1 1...

Хабр

Habr Apr 22

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

https://habr.com/ru/companies/kryptonite/articles/902872/

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы...

Хабр

Habr Apr 15

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

https://habr.com/ru/companies/ru_mts/articles/898636/

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием...

Хабр