Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda

Мы не стали спорить с TIOBE и RedMonk и собрали свой рейтинг языков программирования на основе GitHub. Данные за 2024–2025 показывают неожиданные вещи: JavaScript впереди, TypeScript резко растёт, а Rust и Go выигрывают по качеству проектов. Разбираем, что стоит за цифрами и где могут быть искажения.

https://habr.com/ru/companies/hostkey/articles/1017990/

#Python #GitHub_API #JupyterLab #анализ_данных #визуализация_данных #pandas #рейтинг_языков_программирования #репозитории #Data_Engineering #hostkey

Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda

Автор: Иван Богданов, Технический писатель  Каждый раз, когда выходит новый рейтинг языков программирования типа TIOBE или RedMonk , в комментариях начинается одно и то же. Python не может быть...

Хабр

AiConf 2026: переход от теории к практике

Привет, Хабр! Есть такое ощущение, что сейчас ИИ везде. Он пишет код, водит грузовики, торгует на бирже, даже планирует военные операции. Искусственный интеллект изменил и продолжает трансформировать привычную для нас реальность. Новостей и теоретической информации о возможностях AI предостаточно. И кажется, будто мы уже пресытились лекциями, вебинарами и докладами на эту тему. Поэтому в 2026 году

https://habr.com/ru/companies/oleg-bunin/articles/1017262/

#искусственный_интеллект #ai #ml #data #базы_данных #data_science #data_engineering #конференция

AiConf 2026: переход от теории к практике

В 2026 году AiConf делает шаг от разговоров об AI к его практическому применению: ключевым элементом программы станет «стрим развития» — формат, где участники не слушают, а вместе решают реальные...

Хабр

CPU 80%. Как найти проблемный запрос в ClickHouse?

Clickhouse. CPU под нагрузкой, память на пределе, диск нагружен. Запросы тормозят. Расчёты не завершаются. Сервер на грани. Что же делать?

https://habr.com/ru/articles/1015986/

#clickhouse #база_дынных #оптимизация #data_engineering

CPU 80%. Как найти проблемный запрос в ClickHouse?

CPU 80%, память на пределе, диск нагружен. Запросы тормозят. Расчёты не завершаются. Сервер на грани. Что же делать? Расскажу как начинаю диагностику и как найти запрос, который создаёт нагрузку. Шаг...

Хабр

Моя любимая функция в ClickHouse, или оптимизируем вообще всё с помощью cityHash64()

Более 5 лет я работаю ClickHouse DBA и помогаю командам разработки и аналитики эффективно использовать ClickHouse. Неизменным помощником в этом мне служит хеш-функция cityHash64() . В данной статье мы поговорим в основном про оптимизацию SQL запросов с помощью хеш-функций. Вероятно, рассматриваемые приемы в той или иной степени актуальны не только для ClickHouse, но и для других баз данных, и могут быть полезны любому, кто пишет SQL запросы. Мы рассмотрим только те применения хеш-функций, которые регулярно встречаются в практике, а не что-то из разряда "100 способов измерения высоты здания с помощью барометра".

https://habr.com/ru/articles/1012624/

#sql #clickhouse #cityhash #хешфункции #хеширование #аналитика #анализ_данных #оптимизация #хеш #data_engineering

Моя любимая функция в ClickHouse, или оптимизируем вообще всё с помощью cityHash64()

К написанию данной статьи меня подтолкнула другая статья: « Не только sum() и uniq(): малоизвестные и очень полезные функции ClickHouse » и вопрос автора: «В комментариях расскажите, какие...

Хабр

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

https://habr.com/ru/articles/1011510/

#asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

С вами снова Виталий Виноградов, я занимаюсь в свободное время созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс...

Хабр

Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI

Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито. В статье рассказываю, как мы построили систему HealthScore — метрику здоровья данных. От математической модели и пайплайна сбора метаданных до процесса массовой очистки. А ещё вы узнаете, почему HealthScore и сертификация витрин важны для AI Copilot. Без белого списка доверенных витрин ассистент может масштабировать ошибки так же быстро, как и инсайты.

https://habr.com/ru/companies/avito/articles/1011332/

#dwh #data_engineering #data_quality #data_governance #bi #каталог_данных #управление_метаданными #avito

Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI

Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито. Сегодня поговорим о здоровье данных. В статье расскажу, как мы построили систему...

Хабр

Почему `SUM() OVER (ORDER BY ...)` иногда считает «неправильно»: разбираем оконные фреймы в SQL

Почему SUM() OVER (ORDER BY ...) иногда даёт неожиданный результат, даже когда запрос синтаксически правильный? В статье на практических примерах разбираю, как работают оконные фреймы в SQL, чем отличаются ROWS, RANGE и GROUPS, где чаще всего возникает путаница и как писать накопительные итоги и скользящие метрики без сюрпризов. Если используете оконные функции в аналитике, этот разбор поможет сделать их поведение предсказуемым и управляемым.

https://habr.com/ru/articles/1009552/

#SQL #Аналитика_данных #Базы_данных #Data_Engineering #BI #Tutorial #Обучение_программированию #Оконные_функции #Обработка_данных #Практика_SQL

Почему `SUM() OVER (ORDER BY ...)` иногда считает «неправильно»: разбираем оконные фреймы в SQL

Оконные функции в SQL полезны тем, что позволяют делать аналитику по строкам без GROUP BY : считать ранги, накопительные итоги, скользящие средние, доли, сравнения с соседними строками и агрегаты по...

Хабр

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

https://habr.com/ru/companies/ozontech/articles/1005590/

#pandas #data_analysis #data_engineering #python

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Введение Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте...

Хабр

Сессионные вычислители — залог успеха аналитики будущего

Вечный конфликт: аналитики требуют свободы маневра, а DBA закрывают доступ к базе, опасаясь одного «убийственного» запроса, который положит весь кластер. В Postgres Professional мы разработали Tengri — систему, где каждый пользователь получает изолированные вычислительные ресурсы. Рассказываю, как архитектура индивидуальных вычислителей позволяет избежать конкуренции за ресурсы и почему после такого опыта возвращаться к общим очередям запросов уже не хочется.

https://habr.com/ru/companies/postgrespro/articles/1003600/

#lakehouse #dwh #analytics #data_engineering #database

Сессионные вычислители — залог успеха аналитики будущего

Всем привет, меня зовут Николай Голов. Всю свою профессиональную жизнь я строю аналитические платформы. Возможно, вы видели мои статьи про  Vertica  и  Snowflake . В последние годы...

Хабр

[Перевод] Инженерия данных: паттерны проектирования

Приветствуем вас, Хабр. В течение минувшего года мы серьёзно прорабатывали тему инженерии данных (Data Engineering), поскольку остались очень довольны читательским интересом к вышедшей у нас книге "

https://habr.com/ru/companies/bhv_publishing/articles/1003452/

#книги #паттерны_проектирования #data_engineering #apache_spark #apache_kafka #publishsubscribe

Инженерия данных: паттерны проектирования

Приветствуем вас, Хабр. В течение минувшего года мы серьёзно прорабатывали тему инженерии данных (Data Engineering), поскольку остались очень довольны читательским интересом к вышедшей у нас книге "...

Хабр