Использование Trino для построения ETL-процессов

1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.

https://habr.com/ru/companies/neoflex/articles/1031326/

#Neoflex #Trino #ETL #ELT #Data_Lake #Lake_House

Использование Trino для построения ETL-процессов

1.     Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как...

Хабр

Гайд системного аналитика по корректировкам витрин

Данный материал подходит для тех сотрудников, которые не имеют опыта работы или недавно пришли на проект, связанный с хранилищами данных. Сегодня хотим рассказать вам о рабочих буднях аналитика DWH, точнее об одной из частей этих будней. Надеемся, данное знание пригодится вам для того, чтобы быстро и без нервов освоиться на том проекте, на котором вы будете работать. Информацию описываем вам из нашей практики работы нашего аналитика хранилищ данных. Работу аналитика хранилищ данных можно разделить на две части: 1. Организация интеграции данных от какого-либо источника к какому-либо приемнику; 2. Поиск и решение проблем, связанных с некорректными выходными данными на приемнике, возникающих, например, в результате каких-либо технических сбоев или изменения требований к предоставляемым данным со стороны бизнеса. В этой статье хотим с вами поговорить именно о второй части, так как, согласно практике, именно по ней отсутствует какая-либо документация по действиям для устранения каких-либо проблем. В мире данных, где информация является ключевым активом, процессы ETL играют центральную роль в агрегации, очистке и подготовке данных для анализа и принятия решений. Однако одной из самых неприятных и критических проблем, с которой сталкиваются дата-инженеры и аналитики, является расхождение данных на приемнике (целевой системе) с данными в источнике. Как следствие, это может привести к некорректным отчетам, ошибочным бизнес-решениям и потере доверия к данным. В статье речь пойдет об ETL-процессе, когда с источника данных «протянут» информационный поток со своей логикой преобразований, который «кладет» некорректные данные в приемник.

https://habr.com/ru/companies/neoflex/articles/1017992/

#Neoflex #системный_анализ #системный_аналитик

Гайд системного аналитика по корректировкам витрин

Данный материал подходит для тех сотрудников, которые не имеют опыта работы или недавно пришли на проект, связанный с хранилищами данных. Сегодня хотим рассказать вам о рабочих буднях аналитика DWH,...

Хабр

Как организовать тестовую среду, сохраняя покой владельца данных

Привет, сообществу Habr! Хочу поделиться опытом с коллегами - как мы решили одну из наболевших проблем нашей команды разработки – отсутствие полноты данных для тестирования реализованного функционала в условиях ограниченного доступа к реальным данным компании. Если вы работаете с персональными данными, то наверняка сталкивались с такой проблемой. Наша команда Neoflex работает на проектах заказчика. При старте работ мы всегда подписываем NDA, но все равно этого недостаточно, чтобы владелец доверил нам полный доступ к промышленным данным. Мы его прекрасно понимаем: данные - основа благополучия компании и видеть их должен ограниченный круг лиц, отвечающий за бизнес-результат. Чтобы удовлетворить ожидания заказчика, выполнить вверенную нам работу и достичь высоких результатов при разработке функционала, нам нужны данные для тестирования, близкие к реальным. Тут возникает сложность – на тестовом контуре либо небольшой срез не консистентных промышленных данных, на которых нельзя протестировать полноценно функционал (например, витрину по операциям определенного сегмента клиентов с глубиной месяц, квартал), либо мы начинаем генерировать синтетику, не всегда попадая в нюансы вариативности данных, тратя на это дополнительные ресурсы. Периодически наши члены команды на ретроспективе, разбирая проблемный кейс, обсуждали свою боль – нужен тестовый контур для тестирования с достаточным количеством данных, близких к бизнесовым, обновляемый по расписанию - иначе мы можем выкатить на прод слабо оттестированный функционал.

https://habr.com/ru/companies/neoflex/articles/1003000/

#Маскирование #Neoflex #SQL #СУБД

Как организовать тестовую среду, сохраняя покой владельца данных

Привет, сообществу Habr! Хочу поделиться опытом с коллегами -  как мы решили одну из наболевших проблем нашей команды разработки – отсутствие полноты данных для тестирования реализованного...

Хабр

Ключи в базах данных: больше чем просто идентификатор

Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.

https://habr.com/ru/articles/978212/

#Neoflex #Базы_данных #Классификация_ключей

Ключи в базах данных: больше чем просто идентификатор

Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие...

Хабр

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

Статья посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

https://habr.com/ru/companies/neoflex/articles/957104/

#Neoflex #HumanDynamics #llmмодели #llmагент #aiмодель #data_science

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

— Нам нужны люди.   — Какие?   — Которых не существует. Но которые живут.   — ?! Статья Елизаветы Курочкиной, старшего специалиста по Data Science, компании Neoflex, посвящена рассказу...

Хабр

ИИ-магия: фронтенд, который думает

Автор: Кристина Паревская, Neoflex Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара. Погружаемся в тему пожаров и возгораний Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей. Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

https://habr.com/ru/companies/neoflex/articles/925926/

#Neoflex #frontendразработка

ИИ-магия: фронтенд, который думает

Автор: Кристина Паревская Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные...

Хабр

Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

1. Тревожный звонок Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд. — Холмс! Нам срочно нужна ваша помощь! — воскликнул он, сбрасывая с плеч дождевик. — В городе орудует хитрый вор. Он крадёт предметы, но уносит их только в одном рюкзаке ограниченной вместимости. Нам нужно вычислить, какие именно вещи он унесёт, чтобы максимизировать свою добычу!

https://habr.com/ru/companies/neoflex/articles/922036/

#Neoflex #SQL #llmмодели #gpt

Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

Запись из дневника доктора Ватсона 1. Тревожный звонок Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд. — Холмс! Нам...

Хабр

Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

1. Тревожный звонок Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд. — Холмс! Нам срочно нужна ваша помощь! — воскликнул он, сбрасывая с плеч дождевик. — В городе орудует хитрый вор. Он крадёт предметы, но уносит их только в одном рюкзаке ограниченной вместимости. Нам нужно вычислить, какие именно вещи он унесёт, чтобы максимизировать свою добычу!

https://habr.com/ru/companies/neoflex/articles/921962/

#SQL #Neoflex

Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

Запись из дневника доктора Ватсона 1. Тревожный звонок Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд. —  Холмс!  Нам...

Хабр

Wochenrückblick, Ausgabe 76 (2025-03)

Themen:

☕ Neuer Espressobereiter im Haus: Coffee Miner Neo Flex

🌳 Update für meinen Linktree

⛰️ Alpine AJAX für Alpine.js

🌦️ smuwetter für schnelle Wetterinfos

🤖 Wikenigma: Wiki für Wissenslücken

🐚 GNU Stow für Dotfiles

🔊 Musik: Stefan Muchte, John 00 Fleming, Vladis Cue, Juliane Wolf.

#Wochenrückblick #Espresso #Kaffee #NeoFlex #CoffeeMiner #Rancilio #Linktree #AlpineJS #htmx #Wetter #OpenData #Wikenigma #CLI #stow #techno

https://www.marcusjaschen.de/blog/2025/2025-03/

Rückblick Kalenderwoche 2025-03

☕ Neuer Espressobereiter im Haus: Coffee Miner Neo Flex 🌳 Update für meinen Linktree ⛰️ Alpine AJAX für Alpine.js 🌦️ smuwetter für schnelle Wetterinfos 🤖 Wikenigma: Wiki für Wissenslücken 🐚 GNU Stow für Dotfiles 🔊 Musik: Stefan Muchte, John 00 Fleming, Vladis Cue, Juliane Wolf.

Marcus Jaschen

Безопасность контейнерных сред: как отбить атаки киберпиратов

В современном мире практически ни одна разработка программного обеспечения не обходится без использования средств контейнеризации, что связано с удобством хранения артефактов и зависимостей. Киберпираты следуют трендам DevSecOps, чтобы повышать энтропию атак на контейнерные среды. Кроме того, растет количество APT группировок, что является сегодня довольно значимой проблемой. В данной статье мы подробно рассматриваем техники злоумышленников, а также рассказываем о существующих тактиках защиты для того, чтобы разработчики или DevOps-инженеры смогли применять их в своей повседневной работе.

https://habr.com/ru/companies/neoflex/articles/837946/

#pentest #devops #devsecops #docker #linux #лучшие_практики #neoflex #kubernetes #docker_escape

Безопасность контейнерных сред: как отбить атаки киберпиратов

Введение в контейнеризацию В современном мире практически ни одна разработка программного обеспечения не обходится без использования средств контейнеризации. Это связано с тем, что контейнерные среды...

Хабр