asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

https://habr.com/ru/articles/1011510/

#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь в свободное время созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс...

Хабр

Agi: Sogin, si aprono le iscrizioni per 'Open Gate 2026'

AGI - Al via lunedì 16 marzo su www.sogin.it le iscrizioni per partecipare alla quinta edizione di “Open Gate”, l’iniziativa con cui il Gruppo Sogin aprirà al pubblico, nel fine settimana del 16 e 17 maggio, le porte delle quattro centrali nucleari italiane in dismissione.
Le iscrizioni, esclusivamente on line, si chiuderanno domenica 26 aprile e fino a esaurimento posti.
Le centrali
L’evento coinvolge le centrali di Trino (Vercelli), che raggiunse durante l’esercizio il record mondiale di funzionamento a piena potenza, Caorso (Piacenza), la più grande del nostro Paese, Latina, all’epoca del suo avvio la centrale più potente d’Europa, e Garigliano (Caserta), con la caratteristica “sfera bianca” che racchiude il reattore, patrimonio architettonico italiano.
Sono previsti due percorsi di visita, "zona controllata" e "area industriale", per le centrali di Trino, Caorso e Garigliano, mentre per Latina è programmato un solo percorso: "area industriale". Nell’“area industriale” possono accedere, se accompagnati, anche i minori, dai sei anni in su.
I luoghi simbolo
Nel corso dei tour, della durata di circa due ore, i tecnici di Sogin e della sua controllata Nucleco accompagneranno i visitatori alla scoperta di luoghi simbolo della storia industriale e nucleare del nostro Paese.
I partecipanti potranno vedere con i propri occhi come procedono i lavori di dismissione nelle quattro centrali e avranno l’opportunità di vivere un’esperienza unica e altamente formativa. L’iniziativa sarà anche l’occasione per approfondire il tema del Deposito Nazionale dei rifiuti radioattivi, una struttura dove conferire tutti questi rifiuti, compresi quelli prodotti ogni giorno dalla medicina, dall’industria e dalla ricerca.
Le prenotazioni
Per garantire la più ampia partecipazione, ogni persona potrà prenotarsi per una sola giornata e un solo percorso di visita, scegliendo tra i diversi turni disponibili dalla mattina al tardo pomeriggio. Al momento dell’iscrizione sarà richiesto l’inserimento dei dati personali e il caricamento di un documento di identità.
L’evento sarà raccontato anche su Instagram tramite il profilo opengate_sogin, hashtag #opengate2026, con contenuti dedicati, aggiornamenti in tempo reale e racconti dei partecipanti.

Registration is now open for 'Open Gate 2026'

On Monday, March 16th, registrations will begin at www.sogin.it for the fifth edition of “Open Gate,” an initiative with which the Sogin Group will open the doors of the four Italian nuclear power plants being decommissioned to the public, over the weekend of May 16th and 17th.

Registrations, exclusively online, will close Sunday, April 26th, and until places are full.

The power plants

The event involves the Trino (Vercelli) plant, which achieved a world record for full-power operation during its operation, Caorso (Piacenza), the largest in our country, Latina, which at the time of its launch was the most powerful plant in Europe, and Garigliano (Caserta), with the distinctive “white sphere” that encloses the reactor, an Italian architectural heritage site.

Two visit routes are planned for the Trino, Caorso, and Garigliano plants: “controlled zone” and “industrial area,” while for Latina, only one route is planned: “industrial area.” Access to the “industrial area” can also be granted to minors over six years old, if accompanied.

Iconic Locations

During the tours, which will last approximately two hours, Sogin and its subsidiary Nucleco technicians will accompany visitors to discover iconic locations in our country’s industrial and nuclear history.

Participants will be able to see firsthand the progress of decommissioning work at the four plants and will have the opportunity to experience a unique and highly educational experience. The initiative will also be an opportunity to explore the theme of the National Repository for Radioactive Waste, a facility where all of these wastes are deposited, including those produced daily by medicine, industry, and research.

Registrations

To ensure the widest participation, each person can register for one day and one visit route, choosing from the various available time slots from morning to late afternoon. At the time of registration, personal data will be required and a copy of an identity document will be uploaded.

The event will also be told on Instagram through the opengate_sogin profile, using the hashtag #opengate2026, with dedicated content, real-time updates, and stories from participants.

#OpenGate2026 #wwwsoginitfor #fifth #OpenGate #theSoginGroup #Italian #Trino #Vercelli #Caorso #Latina #Europe #Garigliano( #Caserta #Garigliano #Sogin #Nucleco #Instagram #opengate2026

https://www.agi.it/economia/news/2026-03-11/sogin-iscrizioni-open-gate-36058401/

A good friend of mine has an open #dataengineer position in his group. Stack is #gcp, #python, #trino, #iceberg

The Company is located in Madrid and supports #remote work across europe. The product is adtech, but instead of using user tracking they use contextual Information from the pages where the ads are shown. Both interesting and morally okish approach.

Feel free to boost or reach out if you are interested.

#fedihire #fedijobs

https://seedtag-1.jobs.personio.com/job/2374501

Data Engineer | Jobs at Seedtag Advertising SL

Pro #LibreOffice #Base se připravuje podpora pro databázi #Trino

Как мы разгрузили базу данных в проде и не сломали систему

Наверное, всем знакома ситуация, когда собираешь красивый отчет в BI-системе, пользуешься им полгода, а потом он с каждым днем тормозит все сильнее? Графики обновляются дольше обычного, таблицы медленно грузятся. А все потому, что BI работает на одной базе на пределе своих возможностей из-за перегруженности. Пример классической схемы, с которой начинают почти все компании: BI + база данных. Пока стартапы не могут позволить себе дорогостоящее озеро данных или DWH, они устанавливают базу данных, заполняют ее и прикручивают рядом BI-систему. Вот только данные в растущей компании имеют свойство прибывать. К примеру, у стартапа в первые месяцы работы было пять заказов в день, затем 100, 1 000 и еще больше. День за днем, год за годом все данные складываются в одну базу данных, и в итоге получается тяжелая, медленная система, которой банально неудобно пользоваться. Можно увеличить мощность базы данных, но это лишь отложит проблему на время, а не решит ее. А можно снять нагрузку с базы и доверить обработку накопленных данных другим инструментам и системам хранения. В этой статье я расскажу, как решить проблему с базой данных, которая трещит по швам, с помощью облачных managed-сервисов.

https://habr.com/ru/companies/cloud_ru/articles/987934/

#хранение_данных #bi #s3 #база_данных #хранение_данных_в_облаке #trino #metastore #airflow

Как мы разгрузили базу данных в проде и не сломали систему

Наверное, всем знакома ситуация, когда собираешь красивый отчет в BI-системе, пользуешься им полгода, а потом он с каждым днем тормозит все сильнее? Графики обновляются дольше обычного, таблицы...

Хабр

Как мы переписали ядро Trino на Rust

CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.

https://habr.com/ru/companies/cedrusdata/articles/985602/

#trino #rust #datafusion #bigdata #sql

Как мы переписали ядро Trino на Rust

CedrusData Engine — это lakehouse-движок, основанный на Trino . На реальных пользовательских нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio,...

Хабр
My first #datalakehouse in a #Europeancloud is running! In Part 1 I explained my plan for this. I envisioned an architecture with Kubernetes , #objectstorage, #Nessie and #Trino. My first attempt was at the French cloud provider Scaleway. And in this episode I explain how I got it running.
https://marcel-jan.eu/datablog/2026/01/07/data-engineering-in-the-european-cloud-part-2-scaleway/
Data engineering in the European cloud – Part 2: Scaleway – Expedition Data

Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito . Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны. Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

https://habr.com/ru/companies/avito/articles/979912/

#dwh #lakehouse #trino #vertica #mpp #hive #iceberg #ceph #s3 #orc

Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы,...

Хабр

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито» . С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.

https://habr.com/ru/companies/avito/articles/979836/

#dwh #trino #vertica #mpp #аналитическая_платформа

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад – в статье «Эволюция хранилища данных в...

Хабр

Почему ночных загрузок стало недостаточно: опыт внедрения CDC в М2

Всем привет, меня зовут Игорь Горбенко, и я системный аналитик в компании М2. Отчёты, которые обновляются раз в сутки, хорошо подходят для стратегической аналитики. Но в какой-то момент бизнесу становится важно понимать, что происходит в течение дня , а не только по итогам ночной загрузки. В М2 мы столкнулись с этим, когда от продуктовых команд и службы поддержки начали приходить запросы на внутридневную отчётность и почти real-time метрики. Наш основной подход — ежедневная батчевая загрузка данных — перестал закрывать такие сценарии, и нам понадобился другой способ работы с изменениями в продуктовых базах. В этой статье я расскажу, как мы внедряли Change Data Capture (CDC) с использованием Apache Flink, какие задачи это помогло решить, с какими ограничениями мы столкнулись и почему CDC — полезный, но не универсальный инструмент. CDC и Apache Flink: кратко о технологии и нашем подходе Давайте начнем разбираться. Некоторые из вас наверняка знакомы с понятием CDC, Change Data Capture — техника захвата изменений в базах данных. Для контекста стоит отметить Apache Flink — движок для загрузки и обработки батчей и стриминговых данных в реальном времени. В статье речь пойдет про Flink CDC — фреймворк с открытым исходным кодом для отслеживания изменений данных в базах данных в реальном времени. В проектах нашего отдела в М2 основной метод загрузки — это ежедневное ночное копирование продуктовых баз данных (PostgreSQL, MongoDB) в аналитическое хранилище на базе Apache Iceberg и последующая их обработка с помощью движка Trino.

https://habr.com/ru/companies/m2tech/articles/978258/

##sql ##cdc ##trino ##dbt ##apache ##data

Почему ночных загрузок стало недостаточно: опыт внедрения CDC в М2

Всем привет, меня зовут Игорь Горбенко, и я системный аналитик в компании М2. Отчёты, которые обновляются раз в сутки, хорошо подходят для стратегической аналитики. Но в какой-то момент бизнесу...

Хабр