Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде...

Хабр

Medallion в ClickHouse: DWH без миграций схемы

Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.

https://habr.com/ru/articles/991588/

#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault

Medallion в ClickHouse: DWH без миграций схемы

Введение субъективно, но основано на действительности. По нашему скромному мнению, хардкорных ребят из Banner Stat , рынок дата-инженерии сильно меняется. Еще лет пять назад, когда ты имел несколько...

Хабр

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не...

Хабр

Хватит парсить Excel вручную: я написал библиотеку, которая сделает это за вас

Буквально пару недель назад, проводя код-ревью, меня внезапно накрыло осознание: огромный кусок логики наших мини-приложений - это чтение и парсинг Excel-файлов . При этом целая команда разработчиков решает одну и ту же задачу, но каждый по-своему. Стало немного больно. Поэтому я написал xlea…

https://habr.com/ru/articles/991462/

#python #excel #парсинг_excel #обработка_excel_файлов #табличные_данные #data_parsing #data_engineering #python_библиотеки #schema #валидация_данных

Хватит парсить Excel вручную: я написал библиотеку, которая сделает это за вас

Это я, пишу xlea Привет, Хабр! Как часто вы парсите Excel-таблицы? Лично я очень часто . И почти никогда эти файлы не выглядят так, что их можно без боли скормить  pandas  и сразу получить...

Хабр

CDC своими руками: Kafka + Debezium в домашней лаборатории

Третья статья цикла о построении CDC-пайплайна с нуля. Сегодня — самое интересное: захватываем изменения из PostgreSQL и отправляем в Kafka. И разбираемся, почему WAL может съесть весь диск, даже если данные не меняются.

https://habr.com/ru/articles/990902/

#kafka #debezium #cdc #devops #data_engineering

CDC своими руками: Kafka + Debezium в домашней лаборатории

Третья статья цикла о построении CDC-пайплайна с нуля. Сегодня — самое интересное: захватываем изменения из PostgreSQL и отправляем в Kafka. И разбираемся, почему WAL может съесть весь диск, даже если...

Хабр

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

https://habr.com/ru/articles/989112/

#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок Генерация, понимание и редактирование реалистичных изображений — всё ещё сложнейшая задача для ИИ. Потому качественные...

Хабр

Как мы загрузили историю 287 валютных пар с лимитом 8 запросов в минуту

Попробуйте найти исторические курсы для пар вроде «доллар к афгани» или «евро к таджикскому сомони». Данные либо платные, либо их просто нет в виде готового датасета. Мы решили эту проблему в рамках своего проекта, хотя единственный подходящий API диктовал суровые условия: 8 запросов в минуту и 5000 дней за раз. Получилось! Наш Python-скрипт аккуратно, чанк за чанком, собрал историю всех 287 пар за 4.5 часа, ни разу не превысив лимит. Теперь все эти данные — более миллиона строк — лежат в открытом доступе на GitHub. В статье делюсь техническими деталями, как выстроить такую загрузку, и уроками, которые мы извлекли.

https://habr.com/ru/articles/983024/

#Python #Data_Engineering #финансовые_данные #валютные_пары #ETLпроцесс #GitHub_Pages #opensource_датасет #исторические_котировки #rate_limiting #Twelve_Data_API

Как мы загрузили историю 287 валютных пар с лимитом 8 запросов в минуту

Граф связей 145 валют проекта AbsCur3 Граф валютных связей: 145 вершин, 287 рёбер — основа для расчёта абсолютных курсов Вы когда-нибудь пытались найти исторические данные по курсу доллара к афгани...

Хабр

Востребованные профессии 2026 и где на них учиться

Конец года — подходящий момент, чтобы подвести итоги и построить новые планы. IT-рынок в 2026 году станет более требовательным: будут цениться специалисты, которые понимают систему целиком, умеют работать с неопределённостью и постоянно обновляют навыки. Выбор направления обучения сейчас — инвестиция в ближайшие несколько лет карьеры. В этой статье выделим топ-5 перспективных IT-профессий 2026 года: расскажем, что делает специалист в каждой из них, какие компетенции нужны, и где можно учиться, чтобы войти или прокачаться в выбранной области.

https://habr.com/ru/companies/habr_career/articles/981588/

#учебный_процесс #учебный_процесс_в_it #образование_в_ит #образование_в_it #машинное_обучение #бэкендразработка #devops #data_engineering #QA #менеджмент

Востребованные профессии 2026 и где на них учиться

Конец года — подходящий момент, чтобы подвести итоги и построить новые планы. IT-рынок в 2026 году станет более требовательным: будут цениться специалисты, которые понимают систему целиком, умеют...

Хабр

# Типы RAG

### 1) Naive RAG (наивный RAG)
- Извлекает документы исключительно на основе векторного сходства между эмбеддингом запроса и сохранёнными эмбеддингами.
- Лучше всего подходит для простых, фактологических запросов, где достаточно прямого семантического совпадения.

**Когда использовать:**
FAQ, справки, поиск конкретных фактов, документация.

---

### 2) Multimodal RAG (мультимодальный RAG)
- Работает с несколькими типами данных (текст, изображения, аудио и т. д.), выполняя эмбеддинг и поиск по разным модальностям.
- Идеален для кросс-модальных задач, например когда на текстовый запрос нужно ответить с учётом и текста, и изображений.

**Когда использовать:**
Поиск по медиа-архивам, анализ документов с картинками, видео/аудио-контент.

---

### 3) HyDE (Hypothetical Document Embeddings)
- Применяется, когда запрос семантически плохо совпадает с реальными документами.
- Сначала генерируется гипотетический документ-ответ на основе запроса.
- Затем используется эмбеддинг этого документа для поиска релевантных реальных источников.

**Когда использовать:**
Абстрактные вопросы, плохо сформулированные запросы, исследовательские задачи.

---

### 4) Corrective RAG (корректирующий RAG)
- Проверяет извлечённые результаты, сравнивая их с доверенными источниками (например, веб-поиском).
- Обеспечивает актуальность и точность данных, фильтруя или исправляя контент перед передачей в LLM.

**Когда использовать:**
Новости, финансы, право, медицина — любые области с высокой ценой ошибки.

---

### 5) Graph RAG (графовый RAG)
- Преобразует извлечённый контент в граф знаний, фиксируя сущности и связи между ними.
- Усиливает рассуждение LLM за счёт структурированного контекста наряду с текстом.

**Когда использовать:**
Сложные доменные знания, онтологии, аналитические и причинно-следственные вопросы.

---

### 6) Hybrid RAG (гибридный RAG)
- Объединяет плотный векторный поиск и графовый поиск в одном пайплайне.
- Даёт более богатые ответы за счёт сочетания неструктурированных и структурированных данных.

**Когда использовать:**
Корпоративные базы знаний, CRM/ERP-системы, сложные аналитические запросы.

---

### 7) Adaptive RAG (адаптивный RAG)
- Динамически определяет, нужен ли простой поиск или многошаговое рассуждение.
- Разбивает сложные запросы на подзапросы для повышения точности и полноты ответа.

**Когда использовать:**
Непредсказуемые пользовательские запросы, диалоговые системы, ассистенты.

---

### 8) Agentic RAG (агентный RAG)
- Использует ИИ-агентов с планированием, рассуждением (ReAct, Chain-of-Thought) и памятью.
- Оркестрирует поиск из разных источников, применяет инструменты и внешние API.

**Когда использовать:**
Сложные рабочие процессы, исследовательские ассистенты, автоматизация бизнес-логики.

#data_engineering

Появилась задача по репликации данных между кликом и эластиком. Вначале была идея взять уже готовое решение, но оказалось, что их на рынке 2–3 штуки. Одно устанавливается только через Helm и требует поднятия кучи инфры, а второе клало болт на мои кастомные индексы в эластике, и я быстро не смог разобраться, что за WTF и по какому принципу оно их пересоздаёт

В результате самым быстрым способом оказалось написание курсором скрипта для копирования чанками из клика в эластик, и потом ещё вечер ушёл на то, чтобы приделать очередь

Очень похожая ситуация с дата-хабами (data hub): дикие фреймворки с 500 коннекторами ко всем базам данных, на изучение и внедрение которых могут уйти недели, в то время как на написание кастомного, простого и быстрого решения уходят дни

#data_engineering