Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

https://habr.com/ru/articles/1022460/

#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна...

Хабр

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона ( bronze , silver , gold уровни) для эффективной работы с большими данными, чтобы избежать превращения хранилищ в бесполезное «болото данных». Автор делится реальными кейсами и примерами кода для Microsoft Fabric и Azure Databricks , объясняет, как интегрировать медальон в data mesh , и рассматривает вопросы безопасности, контрактов данных и применения генеративного ИИ. Книга будет полезна дата-инженерам, архитекторам и руководителям, ищущим проверенные решения для построения востребованной и управляемой аналитики.

https://habr.com/ru/companies/piter/articles/1021230/

#архитектура_медальона #архитектура #github #базы_данных #data_engineering #big_data

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Объемы данных растут экспоненциально, а опасность оказаться в «болоте данных» (data swamp) подстерегает на каждом шагу? Чтобы получить ценную аналитику, которая обеспечит...

Хабр

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье...

Хабр

Пиплметры: зомби из 90-х как основа рекламного рынка на ТВ

Вообразим себе картинку: бабушка записывает в блокноте каждый просмотренный эпизод “Поле чудес”, а потом сотрудники аналитического агентства, пытаясь разобрать ее почерк, неделю вручную вводят данные в таблицу. Так выглядела аналитика просмотров в доцифровую эпоху. Зрители вручную заполняли дневники просмотра - что и сколько времени смотрел. Затем задау немного автоматизировали и так появились пиплметры - устройства, измеряющие телеаудиторию в относительно автоматическом режиме. Сегодня все проще. Заглянул в аналитику стримингового сервиса и у тебя уже есть все нужные данные, собранные автоматически. Или нет? В этом материале разбираем, что такое пиплметр, кому он нужен и почему в мире больших данных он не ушел в прошлое вместе с прочей техникой из 90-х - видеомагнитофонами, двухкассетниками и кнопочными домашними телефонами.

https://habr.com/ru/companies/ru_mts/articles/1015606/

#пиплметры #телевидение #медиаизмерения #рейтинги #Mediascope #аналитика #Big_Data #телесмотрение #социология #история_технологий

Пиплметры: зомби из 90-х как основа рекламного рынка на ТВ

Источник Вообразим себе картинку: бабушка записывает в блокноте каждый просмотренный эпизод «Поля чудес», а потом сотрудники аналитического агентства, пытаясь разобрать ее почерк, неделю вручную...

Хабр

Как я сделал глобальный семантический поиск для Telegram

TLDR: https://semagram.io/ Всё началось с того, что меня сократили на работе, и я несколько месяцев подряд не мог найти новую работу. Так получилось, что крупнейший работодатель региона Amadeus (хотя я работал даже не там) - решил заморозить найм и тоже сократить добрую часть консультантов именно в тот момент, когда я отрицательно трудоустроился. В итоге на рынке высвободилась большая масса айти-специалистов, которую не могли трудоустроить другие компании (а кто-то из них, возможно, и сам напрягся “а? Amadeus сокращает найм и внедряет ИИ? На всякий случай тоже заморозим найм”). Я оказался в общей массе. Так что параллельно с прохождением немногочисленных собеседований я начал думать о том, какие бы проекты запилить. Во-первых, продолжить обновлять свой опыт в резюме, пусть и немного в другом разделе. Во-вторых, а вдруг, мало ли что может случиться. Я брейнштормил идеи с ИИ, первые проекты были не особо примечательными...

https://habr.com/ru/articles/1015876/

#telegram #big_data #scraping #mtproto

Semagram

Semantic search for Telegram channels, groups, and bots

Как перевернуло машину на пустом месте и при чем тут Big Data, компьютерное зрение и предиктивная аналитика

Привет, Хабр. Этой статьей я открываю сезон, который многие называют «зимняя романтика и гололед», а я теперь буду называть сезоном «внезапной наледи в тени леса». В прошедшие выходные мой хороший друг решил прокатиться за город. Скорость была абсолютно штатная, даже чуть ниже разрешенной – около 80 км/ч. Асфальт сухой, солнце слепит глаза, в машине играет приятный подкаст. И тут – въезд в тень лесополосы. Обычно он знает, что там может быть сыро, но в этот раз природа подготовила сюрприз в виде наледи. Машина клюнула носом, корму мгновенно поставило в занос, а через секунду мир совершил кульбит, и мой друг повис на ремне безопасности, глядя в перевернутое небо. Хорошо, что все живы, отделались ушибами и испугом. Но когда мы сидели у него на кухне и разбирали произошедшее (а он, как любой айтишник, начал с вопроса «почему?»), меня посетила мысль: Почему, черт возьми, современный автомобиль, напичканный электроникой, не предупредил его об этой ловушке? Ведь информационные технологии давно уже должны были сделать такие сюрпризы невозможными. Давайте разберем по полочкам, какие именно IT-решения могли бы предотвратить этот переворот, если бы они были не просто в машине, а работали в едином контексте.

https://habr.com/ru/articles/1010728/

#ADAS #V2X #Компьютерное_зрение #LiDAR #Big_Data #Предиктивная_аналитика #Машинное_обучение #Интернет_вещей #IoT #Беспроводные_технологии

Как перевернуло машину на пустом месте и при чем тут Big Data, компьютерное зрение и предиктивная аналитика

Привет, Хабр. Этой статьей я открываю сезон, который многие называют «зимняя романтика и гололед», а я теперь буду называть сезоном «внезапной наледи в тени леса». В выходные мой хороший друг решил...

Хабр

2,5 миллиарда в «БДСМ»: Почему CIO «Магнита» ищет миллионы, теряя миллиарды?

Пока IT-директор «Магнита» ищет способы сэкономить 200 млн рублей на серверах и обновляет техрадары, в их логистике ежегодно «сгорает» 2,5 миллиарда. Я пришел в комментарии к CIO с готовым алгоритмом, который пакует фуры со скоростью 500 000 объектов в секунду с учетом LIFO, развесовки и крена, но получил лишь игнор и минус в рейтинг. Что ж, переходим к публичному вызову: 168 часов против 2,5 миллиардов. Кто быстрее — математика или корпоративный TOGAF?

https://habr.com/ru/articles/1007972/

#Логистика #Алгоритмы #Big_Data #Математика #Программирование #LIFOпогрузка #Развесовка_по_осям #3D_Bin_Packing #Greedy_algorithm #Жадный_алгоритм

2,5 миллиарда в «БДСМ»: Почему CIO «Магнита» ищет миллионы, теряя миллиарды?

Привет, Хабр! Недавно CIO «Магнита» Валентин Щитов опубликовал статью https://habr.com/ru/companies/magnit/articles/570992/ о том, как устроено IT в ритейл-гиганте. Он пишет про 3500 айтишников,...

Хабр

Эксперимент по поиску brain wallets: проверяем топ популярных паролей на живых Bitcoin-кошельках

Данный эксперимент проделан исключительно в формате развлечения выходного дня. Всё, что вы здесь увидите — результат чистого любопытства и желания покопаться в больших данных. Никакие приватные ключи не публикуются, только публичная информация об адресах.

https://habr.com/ru/articles/1006118/

#bitcoin #brain_wallet #rockyou #криптовалюта #безопасность #big_data #python #GPU #RTX_4090 #Yandex_Cloud

Эксперимент по поиску brain wallets: проверяем топ популярных паролей на живых Bitcoin-кошельках

Данный эксперимент проделан исключительно в формате развлечения выходного дня. Всё, что вы здесь увидите — результат чистого любопытства и желания покопаться в больших данных. Никакие приватные ключи...

Хабр

Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

https://habr.com/ru/articles/1005606/

#esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и...

Хабр

От товара к предложению: как Ozon учитывает цену и доставку в ранжировании

Всем привет! Меня зовут Станислав Ким, я ML-разработчик в команде качества поиска Ozon. В этой статье расскажу, как мы перешли от ранжирования товаров к ранжированию предложений, внедрили «матрицу памяти» для переноса статистики и получили +0,9% к GMV на пользователя. Представьте простую ситуацию. Вы — продавец электроники. Выводите на Ozon новую модель робота-пылесоса. Чтобы ворваться на рынок, вы ставите цену на 20% ниже конкурентов и отгружаете партию на ближайший склад, чтобы доставка была «завтра». Логика подсказывает: алгоритмы увидят выгодное предложение (дёшево + быстро), подкинут товар в топ, и продажи взлетят. Реальность: проходит день, два... а товар висит на 5-й странице выдачи. Потому что для алгоритма ранжирования ваш пылесос — «чистый лист». У него нет истории продаж, нет кликов, нет отзывов. Рядом в топе — конкуренты: они дороже, доставка дольше, но у них есть история: тысячи заказов за прошлый год. Алгоритм «любит» их за накопленную статистику, а ваше выгодное предложение игнорирует — он просто не знает, чего от него ждать. В индустрии эта проблема называется cold start — и с ней сталкиваются все крупные маркетплейсы. Мы поняли, что нужно менять саму парадигму. Наш лозунг: ранжировать не абстрактную карточку товара с её прошлым, а конкретное предложение с его условиями здесь и сейчас.

https://habr.com/ru/companies/ozontech/articles/995840/

#поиск #маркетплейс #ранжирование #machine_learning #рекомендательные_системы #big_data #abтестирование #поисковые_запросы #Ozon #cold_start

От товара к предложению: как Ozon учитывает цену и доставку в ранжировании

Всем привет! Меня зовут Станислав Ким, я ML-разработчик в команде качества поиска Ozon. В этой статье расскажу, как мы перешли от ранжирования товаров к ранжированию...

Хабр