The Right Way of Designing a Chimney

https://tube.blueben.net/w/qAJhdW9Drpu7jn44EwYP9G

The Right Way of Designing a Chimney

PeerTube

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

https://habr.com/ru/articles/1038456/

#rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о...

Хабр

Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

https://habr.com/ru/companies/X5Tech/articles/1034656/

#scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных

Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

Привет, на связи Василий Самарин, ведущий инженер данных в Х5 Tech. Это моя вторая статья по теме построения SCD-2-таблиц. Если вы еще не знакомы с SCD-2-таблицами, то рекомендую заглянуть в мою...

Хабр

[HIRING] Data Scientist @ Center for Security and Emerging Technology (CSET)
💰 USD 80K-157K | Georgetown University: Main Campus: Walsh School of Foreign Service - 500 First St NW 7th Floor | Onsite/Hybrid

👉 https://aijobs.net/job/data-scientist-georgetown-university-main-campus-walsh-school-of-foreign-service-500-first-st-nw-7th-floor-115715/

#Hiring #Job #DataScientist #Scientist #Aws #Airflow #Annotation #Azure

Data Scientist - Georgetown University: Main Campus: Walsh School of Foreign Service - 500 First St NW 7th Floor

Build data pipelines; Communicate findings to policy audiences; Conduct research design and data method identification; Create accessible visualizations and web interfaces; Design evaluate and implement modeling solutions; Develop AI-enabled solutions; Document and communicate methods and data resources; Implement extraction classification clustering annotation entity resolution; Improve dataset quality and utility; Ingest structured and unstructured datasets; Interpret results and draw inferences; Monitor AI machine learning biotechnology and national security policy trends; Process large datasets;

Data Scientist

Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

https://habr.com/ru/companies/vktech/articles/1032686/

#big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что...

Хабр

Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

https://habr.com/ru/articles/1033750/

#airflow #Framework #Python #DE

Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

Apache Airflow долгое время ассоциировался с таким стилем описания workflow: # объявляем задачи-таски task1 = PythonOperator(...) task2 = BashOperator(...) # проставляем зависимости между ними task1...

Хабр

Heat Recovery Ventilator (HRV) — Operating Principle

A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.

---

How It Works

Two airflows:

Exhaust air (warm, from indoors)

Supply air (cold, from outside)

They pass through a heat exchanger:

separated by plates or channels

no direct mixing

heat transfers through the material (conduction)

Result: → supply air is preheated
→ exhaust air is cooled
→ overall heat loss is reduced

---

Types of Recuperators

1. Plate Heat Exchanger

aluminum or plastic plates

efficiency: ~60–90%

no moving parts

2. Rotary (Wheel) Heat Exchanger

rotating drum

transfers heat and some moisture

efficiency: up to ~85–90%

3. Counterflow Heat Exchanger

air streams move in opposite directions

highest efficiency: up to ~95%

---

What Is Transferred

heat (primary)

sometimes moisture (in enthalpy units)

---

Efficiency Example

outside: 0°C

indoor: +22°C

after recovery: ~16–20°C

---

Advantages

reduced heating energy demand

continuous ventilation without major heat loss

improved indoor air quality

---

Limitations

frost formation in winter (needs bypass or preheater)

filter maintenance required

upfront cost

---

Core Idea

A recuperator doesn’t generate heat — it recovers and reuses it.

#HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir

Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

https://habr.com/ru/companies/X5Tech/articles/1026382/

#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях...

Хабр

🖥️ Donne du style et de la puissance à ton setup !

Découvre notre sélection de boîtiers PC gaming 🔥
RGB, airflow optimisé, design futuriste… tout pour sublimer ta config 💡

⚡ Que tu sois gamer ou créateur, trouve le boîtier parfait pour ton build !

👉 Explore maintenant la catégorie et upgrade ton setup !

https://inmedia.ma/product-category/accessoires-composants/boitiers-pc/

#pcgaming, #boitierpc, #setupgaming, #rgb, #gamingsetup, #pcbuilder, #airflow, #gaminggear

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

https://habr.com/ru/articles/1022460/

#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна...

Хабр