Mastodawn

Смотрим low-code коннектор к «1С: Шине» от «Денвик»

На связи Сергей Скирдин, технический директор компании «Белый код». Мы занимаемся проектами в сфере управления данными: интеграции, хранилища, BI. В прошлой статье про DevCon я писал, что спрашивал про поддержку «1С:Шины» в БСП, чтобы не делать на каждом проекте отдельный коннектор. Конкретных сроков от вендора не прозвучало, и в конце статьи я оставил приглашение к сотрудничеству для тех, у кого есть готовый коннектор. Откликнулась компания «Денвик». Мы с ними давно дружим — у них хороший, функциональный ETL-инструмент для извлечения данных из 1С. Можно ли его применять в качестве коннектора к «1С:Шине»? Давайте вместе посмотрим 14 мая 2026 года.

https://habr.com/ru/companies/w_code/articles/1032410/

#bi #biаналитика #biсистема #etl #дашборды #дашборды_в_компании #визуализация_данных #esb

Смотрим low-code коннектор к «1С: Шине» от «Денвик»

На связи Сергей Скирдин, технический директор компании «Белый код». Мы занимаемся проектами в сфере управления данными: интеграции, хранилища, BI. В прошлой статье про DevCon я писал, что спрашивал...

Хабр

Habr 2d ago

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.

https://habr.com/ru/articles/1031358/

#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только...

Хабр

Habr 4d ago

Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.

https://habr.com/ru/companies/neoflex/articles/1031326/

#Neoflex #Trino #ETL #ELT #Data_Lake #Lake_House

Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как...

Хабр

Habr 4d ago

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».

https://habr.com/ru/companies/w_code/articles/1031014/

#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с...

Хабр

amah_codes Apr 30

🎉 Milestone Unlocked: Finished the Data Engineering Zoomcamp!

In 10 weeks, I moved from scripting to architecting systems. We built real production-grade infrastructure using Spark, Kafka, Airflow, and Kestra—not just hobby projects.

Capstone: A Storage Hard Drive Dashboard using real failure data from Backblaze
Stack: Terraform + Docker infra, Airflow orchestration, dbt modeling, Streamlit viz.

Key Lessons:
✅️ "It works on my laptop" isn't a strategy.
✅ Need IaC, partitioning, clustering, and strict error handling.
✅ dbt ensures reproducible, tested models.
✅ Infra is invisible work—if it breaks, your code fails.

Take the leap! It’s challenging but by week 10, pieces click into place. Seeing my pipeline run autonomously felt like crossing the finish line. 🏁

Thanks Data Talks Club team! On to the next challenge!

My project: https://github.com/ammartin8/hard_drive_analytics_dashboard

#mastodon #fediverse #data #spark #dataengineering #ai #technology #datatools #datapipelines #fedihire #thursday #sql #observability #etl #python #github

Nicholas Volkhin Apr 29

I wrote a practical PHP guide: How to Parse Large XML Files in PHP Without Running Out of Memory
It focuses on large XML files, memory safety, XMLReader baseline, selected-node extraction, XML-to-array output.
https://dev.to/sbwerewolf/how-to-parse-large-xml-files-in-php-without-running-out-of-memory-234o

The pattern is intentionally boring: stream XML with XMLReader, match the records you need, convert them into plain PHP arrays, and keep application code away from cursor-level XML logic.
#PHP #XMLReader #ETL #XML #OpenSource

Nick Radcliffe Apr 28

My forthcoming book, Test-Driven Data Analysis is finally available for pre-order from the publisher, with 20% off for the next three days. (I don’t set the price; if I did it would be much lower.)

It covers data validation, testing of analytical pipelines and a lot more, with exercises, examples, checklists, anecdotes and more. I think it will help almost any data professional/data wrangler/analyst/modeller. I think people have found it more readable than you might expect given the subject matter.

Version 3.0 of the accompanying tdda library will be released slightly before or with the book, around 19th May. It’s at RC10 and has lots of new and extended functionality.

#tdda #data #analysis #reproducibility #ML #AI #reproducibleresearch #ETL #QA

Habr Apr 28

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

https://habr.com/ru/companies/w_code/articles/1028952/

#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с...

Хабр

Habr Apr 27

Топ-10 требований к ИТ-системе бюджетирования

В условиях глобальной неопределенности финансовое планирование и бюджетирование перестает быть ритуалом подготовки отчетов – сегодня это живой процесс, который определяет жизнеспособность компании, развивая базовые подходы в комплексную систему интегрированного планирования. Бюджетирование – очень важная, интересная и нетривиальная задача, которую в современном мире принято решать при помощи автоматизации. Если еще 5 лет назад в системе бюджетирования видели инструмент консолидации и план-факт анализа, то сегодня это комплексная высокотехнологична модель бизнеса. В этой статье мы поговорим о том, как сама природа процесса бюджетирования влияет на задачи автоматизации и критерии подбора ИТ-системы для решения этих задач.

https://habr.com/ru/articles/1028406/

#бюджетирование #итсистемы #финансовый_план #nocode #bigdata #etl #ibp #требования_к_системе #excel #совместная_работа

Топ-10 требований к ИТ-системе бюджетирования

В условиях глобальной неопределенности финансовое планирование и бюджетирование перестает быть ритуалом подготовки отчетов – сегодня это живой процесс, который определяет жизнеспособность компании,...

Хабр

Habr Apr 23

Как мы строили MVP data lineage системы в ЮMoney

Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

https://habr.com/ru/companies/yoomoney/articles/1027068/

#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные

Как мы строили MVP data lineage системы в ЮMoney

Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов,...

Хабр