OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling

Привет, Хабр! Это Андрей Ловлин, руководитель команды «Фабрика данных. Платформа» компании Диасофт. В предыдущей статье мы рассказывали про S3 Архипелаг – слой хранения для нашей

https://habr.com/ru/companies/diasoft_company/articles/1039044/

#data_engineering #data_lakehouse

OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling

Привет, Хабр! Это Андрей Ловлин, руководитель команды «Фабрика данных. Платформа» компании Диасофт. В предыдущей статье мы рассказывали про S3 Архипелаг – слой хранения для нашей «Фабрики данных»...

Хабр

Как мы построили сквозную аналитику в Power BI

Всем привет! Меня зовут Никита и я CEO компании VSL-BI. Мы занимаемся внедрением BI-аналитики. К нам обратилась компания из сферы продажи стройматериалов. Они активно работали с рекламой в Яндекс Директ и Google Ads (клиент вел деятельность в Казахстане), следили за аналитикой сайта в Яндекс Метрике, в качестве CRM использовали Битрикс24.

https://habr.com/ru/articles/1038944/

#сквозная_аналитика #Power_BI #BIаналитика #Яндекс_Директ #Google_Ads #Яндекс_Метрика #Битрикс24 #ETL #Data_Engineering #бизнесаналитика

Как мы построили сквозную аналитику в Power BI

Всем привет! Меня зовут Никита и я CEO компании VSL-BI. Мы занимаемся внедрением BI-аналитики. К нам обратилась компания из сферы продажи стройматериалов. Они активно работали с рекламой в Яндекс...

Хабр

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что-то делать: все вокруг внедряют, конкуренты вон что-то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть. Это был, кажется, пятый такой звонок за месяц. И знаете, что меня в них всех поражает? Спрашивают они одно и то же, и спрашивают неправильно. Не «нужен ли нам ИИ», а «куда бежать, чтобы не опоздать», - разница на самом деле огромная, потому что первый вопрос предполагает разбор задачи, а второй уже подразумевает, что бежать в любом случае надо, осталось только направление выбрать. Так вот, если коротко - не надо бежать. Сам я не специалист по нейросетям. Много лет вожусь с базами данных в банках, в ритейле, в системной интеграции, и работа моя: смотреть, как данные живут в настоящих, не презентационных компаниях, и решать, что из задуманного взлетит, а что разобьётся об реальность. Через этот фильтр я и предлагаю взглянуть на нынешний шум вокруг локальных LLM, RAG и «корпоративных помощников».

https://habr.com/ru/articles/1037808/

#llm #rag #искусственный_интеллект #локальные_модели #эмбеддинги #архитектура_данных #хранилища_данных #внедрение_ии #data_engineering #цена_ошибки

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что‑то делать: все вокруг внедряют, конкуренты вон что‑то...

Хабр

Мультитенантность в FinOps: Проектируем ядро системы учета расходов

«Кто виноват и что делать?» — эти два вопроса, которые классики русской литературы адресовали обществу, сегодня как никогда актуальны для IT-директоров и финансовых руководителей. Только «виноват» не конкретный человек, а не оптимально работающая инфраструктура, а ответ на вопрос «что делать?» — внедрять FinOps. FinOps — это не технология, а организационная методика. Важная часть инструментария для FinOps это правильно построенная информационная система, которая собирает, хранит и дает анализировать данные о расходах и нагрузке. В этой статье мы разберем архитектурное ядро такой системы.

https://habr.com/ru/companies/inferit/articles/1035562/

#управление_проектами #облачные_вычисления #data_warehouse #системная_архитектура #itинфраструктура #big_data #devops #data_engineering #finops #финопс

Мультитенантность в FinOps: Проектируем ядро системы учета расходов

«Кто виноват и что делать?» — эти два вопроса, которые классики русской литературы адресовали обществу, сегодня как никогда актуальны для ИТ-директоров и финансовых руководителей. Готовы к ответу?...

Хабр

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и...

Хабр

S3 Архипелаг: разворачиваем объектное хранилище за 15 минут

На связи Илья Шуйков, руководитель продукта «Фабрика данных» компании Диасофт. В прошлой статье мы рассказали, зачем понадобилось строить свое объектное хранилище, и как устроен S3 Архипелаг изнутри. Теперь — практика: берем дистрибутив и разворачиваем рабочее хранилище.

https://habr.com/ru/companies/diasoft_company/articles/1032522/

#объектное_хранилище #хранилище #s3 #объектное_хранилище_s3 #хранение_данных #data_engineering #фабрика_данных #Digital_QDataFactory #S3_Архипелаг

S3 Архипелаг: разворачиваем объектное хранилище за 15 минут

На связи Илья Шуйков, руководитель продукта «Фабрика данных» компании Диасофт. В прошлой статье мы рассказали, зачем понадобилось строить свое объектное хранилище, и как устроен S3 Архипелаг изнутри....

Хабр

Как я сделал Variables в Airflow 3 удобнее

Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

https://habr.com/ru/articles/1023060/

#Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

Как я сделал Variables в Airflow 3 удобнее

Ровно год назад 22 апреля 2025 свет увидела новая версия Airflow 3.0.0 . Среди ключевых изменений — DAG versioning, улучшенный backfill и переход к event-driven scheduling, позволяющий реагировать на...

Хабр

От слов к числам: как математически отличить Middle от Senior

Привет, Хабр! В своей первой статье про анализ вакансий C#/.Net разработчиков на рынке я выделила очень интересное замечание, которое определило тему сегодняшней статьи – « не количество навыков делает из мидла синьора, а образ его мышления ». Построить граф связности компетенций для синьора это конечно хорошо, но к сожалению, на практике применить его достаточно сложно. Сделав упор на навыки в своем исследовании, я получила зашумленный датасет, не поддающийся адекватной кластеризации. Так что пришло время попытаться пересмотреть подход к использованию полученных данных и попытаться вычленить из них тот качественный скачок, который отделит мидла от синьора.

https://habr.com/ru/articles/1026186/

#c# #грейды #теория #data_science #data_engineering

От слов к числам: как математически отличить Middle от Senior

Привет, Хабр! В своей первой статье про анализ вакансий C#/.Net разработчиков на рынке я выделила очень интересное замечание, которое определило тему сегодняшней статьи – « не количество навыков...

Хабр

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту валюту подставили, забыли про скидку. Но после того как исходные данные трансформированы и отчет сформирован, но иногда бывают такие ситуации, когда вернуться к первоисточнику по какой-то причину уже нельзя. В FinOps эта ситуация — не метафора, а суровая реальность. Данные от облачных провайдеров доступны лишь в ограниченном окне (30–90 дней), а иногда и меньше. Если вы сначала обработали их, а потом поняли, что ошиблись, может так случиться, что перезапросить исходники уже не получится. В этой статье мы разберем два подхода к построению процессов обработки и преобразования данных — ETL и ELT — и докажем, почему для FinOps выбор ELT — это не просто вопрос производительности, а вопрос выживания исторических данных.

https://habr.com/ru/companies/inferit/articles/1025790/

#облачные_вычисления #finops #финопс #data_engineering #data_warehouse #itинфраструктура #big_data #управление_проектами #системная_архитектура #devops

ELT против ETL в FinOps: Почему мы сначала кладем сырые данные, а потом думаем

«Фарш невозможно прокрутить назад» — этой поговоркой инженеры данных могли бы объяснить, как работает классический ETL. Ошибка может случиться на любом этапе: не тот коэффициент применили, не ту...

Хабр

Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на

https://habr.com/ru/companies/oleg-bunin/articles/1014750/

#Data_Engineering #высоконагруженные_системы #искусственный_интеллект #Next_Best_Action #ml #данные #большие_данные

Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от...

Хабр