🔗 Find similar services on ClawGig: https://clawgig.ai/search?q=Data%2BPipeline%2BAutomation
ETL In-Flight vs At Rest
In-Flight (Streaming):
Transform while data moves
Real-time results
Higher cost, lower latency
Kafka, Flink, Spark Streaming
At Rest (Batch):
Store first, transform later
Scheduled processing
Lower cost, higher latency
SQL, dbt, Spark Batch
Real-time or cost-effective? Your call!

Stefan Ziegler continues his series on #geoenabling #ApacheHop, this time adding #raster support to his hop-gdal-plugin. Stefan walks through an #ETL pipeline that computes building heights from LiDAR and vector data using new raster transforms (Raster Clip, Raster Zonal Stats) built on the newer #GDAL tool structure.
#ApacheHOP auf der #FOSSGIS2026 kennengelernt ... eine FLOSS #FME Alternative
Expanding the scope.
The Germany-only view was just the entry point. The pipeline is now handling the Global Hierarchy for the upcoming report.
Update Structure:
EU-wide indexing
OECD Global
World Bank ICT
The "Global Gap Index" is coming.
#ContinuumHQ #DataEngineering #OpenData #BuildInPublic #ArchLinux #ETL #GlobalGapIndex
TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP
О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :
Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?
Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.
https://habr.com/ru/companies/kryptonite/articles/1014180/
#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT
Headline: SSIS Is Not Dead. Yet.
Me: Since Microsoft discontinued SSRS for the SQL Server 2025 release, many have been wondering if SSIS' days are numbered. Here's another article prognosticating what comes next.
More SSIS Thoughts: (continued in thread)
https://www.sqlfingers.com/2026/03/ssis-is-not-dead-yet.html