The Right Way of Designing a Chimney

The Right Way of Designing a Chimney

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain
PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.
https://habr.com/ru/articles/1038456/
#rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система
Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow
Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.
https://habr.com/ru/companies/X5Tech/articles/1034656/
#scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных
[HIRING] Data Scientist @ Center for Security and Emerging Technology (CSET)
💰 USD 80K-157K | Georgetown University: Main Campus: Walsh School of Foreign Service - 500 First St NW 7th Floor | Onsite/Hybrid
#Hiring #Job #DataScientist #Scientist #Aws #Airflow #Annotation #Azure

Build data pipelines; Communicate findings to policy audiences; Conduct research design and data method identification; Create accessible visualizations and web interfaces; Design evaluate and implement modeling solutions; Develop AI-enabled solutions; Document and communicate methods and data resources; Implement extraction classification clustering annotation entity resolution; Improve dataset quality and utility; Ingest structured and unstructured datasets; Interpret results and draw inferences; Monitor AI machine learning biotechnology and national security policy trends; Process large datasets;
Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail
В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.
https://habr.com/ru/companies/vktech/articles/1032686/
#big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech
Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и
Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API
Heat Recovery Ventilator (HRV) — Operating Principle
A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.
---
How It Works
Two airflows:
Exhaust air (warm, from indoors)
Supply air (cold, from outside)
They pass through a heat exchanger:
separated by plates or channels
no direct mixing
heat transfers through the material (conduction)
Result: → supply air is preheated
→ exhaust air is cooled
→ overall heat loss is reduced
---
Types of Recuperators
1. Plate Heat Exchanger
aluminum or plastic plates
efficiency: ~60–90%
no moving parts
2. Rotary (Wheel) Heat Exchanger
rotating drum
transfers heat and some moisture
efficiency: up to ~85–90%
3. Counterflow Heat Exchanger
air streams move in opposite directions
highest efficiency: up to ~95%
---
What Is Transferred
heat (primary)
sometimes moisture (in enthalpy units)
---
Efficiency Example
outside: 0°C
indoor: +22°C
after recovery: ~16–20°C
---
Advantages
reduced heating energy demand
continuous ventilation without major heat loss
improved indoor air quality
---
Limitations
frost formation in winter (needs bypass or preheater)
filter maintenance required
upfront cost
---
Core Idea
A recuperator doesn’t generate heat — it recovers and reuses it.
#HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
🖥️ Donne du style et de la puissance à ton setup !
Découvre notre sélection de boîtiers PC gaming 🔥
RGB, airflow optimisé, design futuriste… tout pour sublimer ta config 💡
⚡ Que tu sois gamer ou créateur, trouve le boîtier parfait pour ton build !
👉 Explore maintenant la catégorie et upgrade ton setup !
https://inmedia.ma/product-category/accessoires-composants/boitiers-pc/
#pcgaming, #boitierpc, #setupgaming, #rgb, #gamingsetup, #pcbuilder, #airflow, #gaminggear
Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.
https://habr.com/ru/articles/1022460/
#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python