Expanding the scope.

The Germany-only view was just the entry point. The pipeline is now handling the Global Hierarchy for the upcoming report.

Update Structure:

EU-wide indexing

OECD Global

World Bank ICT

The "Global Gap Index" is coming.

#ContinuumHQ #DataEngineering #OpenData #BuildInPublic #ArchLinux #ETL #GlobalGapIndex

TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

https://habr.com/ru/articles/1014362/

#mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость...

Хабр

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к...

Хабр

Headline: SSIS Is Not Dead. Yet.

Me: Since Microsoft discontinued SSRS for the SQL Server 2025 release, many have been wondering if SSIS' days are numbered. Here's another article prognosticating what comes next.

More SSIS Thoughts: (continued in thread)

https://www.sqlfingers.com/2026/03/ssis-is-not-dead-yet.html

#SQLServer
#SSIS
#ETL

SSIS Is Not Dead. Yet.

SSRS is gone. SQL Server 2025 shipped without it — the first version to drop SSRS entirely, with Power BI Report Server (PBIRS) as th...

DataOps + FinOps: как хранить и обрабатывать данные, не переплачивая

Когда счет за облако приходит в конце месяца, а финдир молча передает вам распечатку с суммой на 40% больше прошлого месяца, это верный признак того, что проблемы начались и сами собой не решатся. Не будет такого, что сегодня перерасход есть, а завтра все вдруг придет в норму. Не придет. Данных со временем становится больше, пайплайны запускаются чаще, хранилище разрастается, а понимания куда уходят деньги из ниоткуда не появляется. И, чтобы навести порядок, используют практики DataOps и FinOps. DataOps выстраивает процессы работы с данными между командами: автоматизацию пайплайнов, контроль качества, управление изменениями и единые правила работы с данными на всех этапах обработки. FinOps делает стоимость инфраструктуры прозрачной для инженерных команд и позволяет понимать, сколько стоят архитектурные и технические решения. Когда данные о потреблении и стоимости становятся видны, появляется возможность управлять расходами и принимать обоснованные решения по инфраструктуре.

https://habr.com/ru/companies/finops_ru/articles/1012134/

#финопс #finops #практики_финопс #cloud #elt #etl #датаопс #облачные_сервисы #облачные_вычисления #itинфраструктура

DataOps + FinOps: как хранить и обрабатывать данные, не переплачивая

«Вот не знаю я, и все тут!..» Когда счет за облако приходит в конце месяца, а финдир молча передает вам распечатку с суммой на 40% больше прошлого месяца, это верный признак...

Хабр

just finished a painful legacy data migration at work and honestly the amount of things that can silently go wrong during ETL is underrated as a topic

spent three days debugging a pipeline that was "working" but dropping ~4% of records with no error logs. fun times

if you're going into something like this, worth reading up before you start:
https://cobit-solutions.com/en/services/etl-migration-consulting/

saved us from a few architectural mistakes we would've made otherwise

#data #ETL #dataengineering #softwareengineering

ETL Migration & Consulting Services | Cobit Solutions

Simplify your ETL migration with our expert consulting. Ensure smooth transitions, clean data flow, and zero hard coding. Get started today.

Business Intelligence | Cobit Solutions

Every data professional should understand these seven core concepts.

From data warehouses and lakes to pipelines, meshes, and governance, these form the foundation of modern analytics infrastructure.
Mastering them bridges the gap between raw data and actionable business insights.

📕 https://ebokify.com/ai-data-science

#DataEngineering #DataScience #DataAnalytics #ETL #DataWarehouse #BigData #BusinessIntelligence #DataPipeline #DataGovernance

8 data analytics terms every aspiring analyst should know, from skewness and correlation to ETL, regression, causation, outliers, descriptive statistics, and ELT. Mastering these fundamentals strengthens your analytical thinking and decision making.

📕 https://ebokify.com/data-analysis

#DataAnalytics #DataAnalyst #ETL #Statistics

Diving deep into Spark batch processing!⚡️

Learned how to:
✅ Optimize data pipelines with filtering, repartitioning & grouping
✅ Design efficient ETL pipelines with Spark
✅ Understanding when and how to use partitioning strategies
✅ Use Google Cloud Storage (GCS) as a data source for Spark applications and configuring Spark to read Parquet or other formats from GCS
✅ Visualize execution plans for efficient coding
✅ Review the Spark UI for performance monitoring

💡 Key takeaway: One thing that amazes me about distributed computing is how we've transformed from struggling with massive datasets to generating insights in near real-time. As an analyst who has dealt with long wait times in processing data, spark saves so much time in getting results faster and make data-driven decisions more quickly.

Review my work here: https://github.com/ammartin8/data_engineering_zoom_camp/blob/main/modules/module_6/project_06/README.md

#mastodon #fediverse #data #spark #dataengineering #ai #technology #opensource #datatools #datapipelines #fedihire #wednesday #sql #observability #etl #python

Geo-enabling Apache #Hop: @edigonzales has been geo-enabling the open-source #ETL tool #ApacheHop, building #GDAL/#OGR reader and writer plug-ins and adding an interactive preview for geometries: Early days, but promising progress toward a fully geo-capable data integration pipeline tool.
https://spatialists.ch/posts/2026/03/10-geo-enabling-apache-hop/ #GIS #GISchat #geospatial #SwissGIS
Geo-enabling Apache Hop – Spatialists – geospatial news

Stefan Ziegler has been geo-enabling the open-source #ETL tool #ApacheHop, building #GDAL/#OGR reader and writer plug-ins and adding an interactive preview for geometries: Early days, but promising progress toward a fully geo-capable data integration pipeline tool.

Spatialists – geospatial news