#ApacheHOP auf der #FOSSGIS2026 kennengelernt ... eine FLOSS #FME Alternative
#ApacheHOP auf der #FOSSGIS2026 kennengelernt ... eine FLOSS #FME Alternative
Expanding the scope.
The Germany-only view was just the entry point. The pipeline is now handling the Global Hierarchy for the upcoming report.
Update Structure:
EU-wide indexing
OECD Global
World Bank ICT
The "Global Gap Index" is coming.
#ContinuumHQ #DataEngineering #OpenData #BuildInPublic #ArchLinux #ETL #GlobalGapIndex
TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP
О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :
Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?
Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.
https://habr.com/ru/companies/kryptonite/articles/1014180/
#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT
Headline: SSIS Is Not Dead. Yet.
Me: Since Microsoft discontinued SSRS for the SQL Server 2025 release, many have been wondering if SSIS' days are numbered. Here's another article prognosticating what comes next.
More SSIS Thoughts: (continued in thread)
https://www.sqlfingers.com/2026/03/ssis-is-not-dead-yet.html
DataOps + FinOps: как хранить и обрабатывать данные, не переплачивая
Когда счет за облако приходит в конце месяца, а финдир молча передает вам распечатку с суммой на 40% больше прошлого месяца, это верный признак того, что проблемы начались и сами собой не решатся. Не будет такого, что сегодня перерасход есть, а завтра все вдруг придет в норму. Не придет. Данных со временем становится больше, пайплайны запускаются чаще, хранилище разрастается, а понимания куда уходят деньги из ниоткуда не появляется. И, чтобы навести порядок, используют практики DataOps и FinOps. DataOps выстраивает процессы работы с данными между командами: автоматизацию пайплайнов, контроль качества, управление изменениями и единые правила работы с данными на всех этапах обработки. FinOps делает стоимость инфраструктуры прозрачной для инженерных команд и позволяет понимать, сколько стоят архитектурные и технические решения. Когда данные о потреблении и стоимости становятся видны, появляется возможность управлять расходами и принимать обоснованные решения по инфраструктуре.
https://habr.com/ru/companies/finops_ru/articles/1012134/
#финопс #finops #практики_финопс #cloud #elt #etl #датаопс #облачные_сервисы #облачные_вычисления #itинфраструктура
just finished a painful legacy data migration at work and honestly the amount of things that can silently go wrong during ETL is underrated as a topic
spent three days debugging a pipeline that was "working" but dropping ~4% of records with no error logs. fun times
if you're going into something like this, worth reading up before you start:
https://cobit-solutions.com/en/services/etl-migration-consulting/
saved us from a few architectural mistakes we would've made otherwise
Every data professional should understand these seven core concepts.
From data warehouses and lakes to pipelines, meshes, and governance, these form the foundation of modern analytics infrastructure.
Mastering them bridges the gap between raw data and actionable business insights.
📕 https://ebokify.com/ai-data-science
#DataEngineering #DataScience #DataAnalytics #ETL #DataWarehouse #BigData #BusinessIntelligence #DataPipeline #DataGovernance
8 data analytics terms every aspiring analyst should know, from skewness and correlation to ETL, regression, causation, outliers, descriptive statistics, and ELT. Mastering these fundamentals strengthens your analytical thinking and decision making.
Diving deep into Spark batch processing!⚡️
Learned how to:
✅ Optimize data pipelines with filtering, repartitioning & grouping
✅ Design efficient ETL pipelines with Spark
✅ Understanding when and how to use partitioning strategies
✅ Use Google Cloud Storage (GCS) as a data source for Spark applications and configuring Spark to read Parquet or other formats from GCS
✅ Visualize execution plans for efficient coding
✅ Review the Spark UI for performance monitoring
💡 Key takeaway: One thing that amazes me about distributed computing is how we've transformed from struggling with massive datasets to generating insights in near real-time. As an analyst who has dealt with long wait times in processing data, spark saves so much time in getting results faster and make data-driven decisions more quickly.
Review my work here: https://github.com/ammartin8/data_engineering_zoom_camp/blob/main/modules/module_6/project_06/README.md
#mastodon #fediverse #data #spark #dataengineering #ai #technology #opensource #datatools #datapipelines #fedihire #wednesday #sql #observability #etl #python