🚀 NEW on We ❤️ Open Source 🚀

Scaling docs ≠ scaling team.

Colton Padden shows how Dagster supports 16k+ community Qs/month using AI + smart info architecture. Great insights on open source growth and empathetic documentation.

https://allthingsopen.org/articles/scaling-documentation-without-scaling-team-dagster

#WeLoveOpenSource #OpenSource #AI #Dagster #Documentation #CommunityDriven

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.

https://habr.com/ru/articles/944284/

#data_warehouse #dwh #airflow #dagster #оркестрация #оркестратор #data_engineering

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Перед аналитикой данные из корпоративных систем необходимо превратить в информацию, пригодную для бизнес-анализа: Извлечь из разрозненных источников  Трансформировать – фильтровать, группировать,...

Хабр

New in Geodata Ramblings blog: Part 2 of posts about using Wyvern's hyperspectral imagery Open Data Program, for Harmful Algal Bloom (HAB) detection. Let's port the pipeline to the Dagster data orchestrator package!

https://ricegeo.dev/hab-detection-wyvern-hsi-dagster/

#hyperspectral #earthobservation #geospatialdata #remotesensing
#betterearth #python #dagster

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

https://habr.com/ru/articles/931282/

#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на...

Хабр
Dagsterとdbt CoreをECS on Fargateで構築する | DevelopersIO

Dagsterとdbt CoreをECS on Fargateで構築する | DevelopersIO
DagsterとdbtをDockerコンテナ上に構築する | DevelopersIO

DagsterとdbtをDockerコンテナ上に構築する | DevelopersIO

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

https://habr.com/ru/articles/883700/

#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С...

Хабр

I really like working with @dagster , I use it for $work but personally too. Once you reach a certain amount of assets you need a way to distinguish them from each other.

I created an example with some screenshots to highlight the different options. And also show how you can test for those #Dagster style things. https://github.com/RMHogervorst/dagster_labeling_testing_example

GitHub - RMHogervorst/dagster_labeling_testing_example

Contribute to RMHogervorst/dagster_labeling_testing_example development by creating an account on GitHub.

GitHub

Dagster is an orchestration engine for data pipelines written in Python. In this configuration, I've subdued it into a reproducibly built, runnable Nix application with poetry2nix:

https://rossabaker.com/configs/dagster/

Next steps include a NixOS module and systemd service for production deployment.

#Dagster #Nix #Poetry2Nix

Ross A. Baker: Dagster

Dagster is an orchestrator for data pipelines. This configuration packages Dagster's OSS version with poetry2nix and makes it runnable from anywhere with Nix.

Implemented a simple Dagster data pipeline last night for personal use. I am delighted how easy it was to start, but squeamish about on "open core" and "Slack community". Anyone want to talk me into it or out of it?

#Dagster