Applied Statistics for Data Science: from visual diagnostics to drift detection by Gal Arav is the featured book 📖 on Leanpub!

Launch Price $9.99 Special! — price will increase as I plan to steadily add more chapters over the coming weeks.

Link: https://leanpub.com/applied-statistics-for-data-science

#machine_learning #data_science #data_engineering #python

Applied Statistics for Data Science

A comprehensive applied statistics text featuring extensive graphical examples of probability distributions, inference, and real‑world data analysis.

Как я собрал базу визовых требований, где каждая ячейка ссылается на официальный источник

Привет, сообщество. Где-то два месяца назад мне пришла в голову идея, очень простая по своей сути, но ой как обширная, если начать в ней копаться более подробно.

https://habr.com/ru/articles/1050674/

#визы #визовое_законодательство #загранпаспорт #релокация #эмиграция #открытые_данные #краудсорсинг #путешествия #data_engineering

Как я собрал базу визовых требований, где каждая ячейка ссылается на официальный источник

Привет, сообщество! Где-то два месяца назад мне пришла в голову идея, очень простая по своей сути, но ой как обширная, если начать в ней копаться более подробно. В мире порядка 200 территорий выдаёт...

Хабр

Как я собрал базу визовых требований, где каждая ячейка ссылается на официальный источник

Привет, сообщество. Где-то два месяца назад мне пришла в голову идея, очень простая по своей сути, но ой как обширная, если начать в ней копаться более подробно.

https://habr.com/ru/articles/1050674/

#визы #визовое_законодательство #загранпаспорт #релокация #эмиграция #открытые_данные #краудсорсинг #путешествия #data_engineering

Как я собрал базу визовых требований, где каждая ячейка ссылается на официальный источник

Привет, сообщество! Где-то два месяца назад мне пришла в голову идея, очень простая по своей сути, но ой как обширная, если начать в ней копаться более подробно. В мире порядка 200 территорий выдаёт...

Хабр

Data Mesh: что это и почему концепция не подходит большинству компаний в России

Как устроен Data Mesh, какие требования подход предъявляет к бизнесу и почему большинству российских компаний сегодня зачастую важнее построить зрелое DWH, чем пытаться перейти к распределенной архитектуре данных

https://habr.com/ru/articles/1049724/

#data_mesh #bigdata #data_engineering #анализ_данных #бизнесаналитика

Data Mesh: что это и почему концепция не подходит большинству компаний в России

Объем и разнообразие корпоративных данных значительно возрастает с каждым годом. Вместе с этим появляются новые требования к их хранению, обработке и использованию. Развиваются различные...

Хабр

The Data and AI Engineering Playbook by Ritesh Modi is the featured bundle of ebooks 📚 on Leanpub!

Four volumes. 76 chapters. 2,000+ pages. The complete data-engineering arc from your first spark.read.csv to a production multi-agent system on Databricks, written for the engineer who gets paged when the pipeline breaks at 2 a.m.

Link: https://leanpub.com/b/thedataandaiengineeringplaybook

#data_engineering #distributed_systems #sql #python #databases #data_science #enterprise_data_modelling #data_analytics

The Data and AI Engineering Playbook

Master Apache Spark and Databricks end to end. Four-volume practitioner series: PySpark, streaming, Unity Catalog, Lakeflow, Mosaic AI, RAG, agents.

Обзор GPU-облаков в России для обычного пользователя в 2026

Сейчас я учусь на 2 курсе магистратуры МИФИ по ML ( это моё второе высшее образование, по 1 специальности я психолог и TechHR с опытом 17+ лет), и пишу диплом о GENAI аватарах, в рамках диплома я создала прототип коммуникативной системы для HR и кандидатов на основе GENAI аватаров и LLM (подготовка для кандидатов к интервью, первичная оценка кандидатов + доп.сервисы - аналитика по ML-вакансиям в Real-Time). Мой диплом - это полноценный прототип системы с бэкэндом и UI, LLM, Gen-AI аватарами. Этот небольшой обзор - для моих локальных студенческих задач. Cейчас для меня важна невысокая стоимость GPU сервисов - для демо-версии на защите диплома в МИФИ, в связи с этим я сделала обзор GPU решений в России, которые подходят для студента, будут не слишком дорогими, и на перспективу - могут быть подходящими и для небольших Production решений.

https://habr.com/ru/articles/1047814/

#GPU #genai #ml #data_engineering #3D_Avatars #LLM

Обзор GPU-облаков в России для обычного пользователя в 2026

Сейчас я учусь на 2 курсе магистратуры МИФИ по ML ( это моё второе высшее образование, по 1 специальности я психолог и TechHR с опытом 17+ лет), и пишу диплом о GENAI аватарах, в рамках диплома я...

Хабр

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте. Стать инженером данных

https://habr.com/ru/articles/1047304/

#data_engineering #data_science #data_mining #big_data #cryptocurrency

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Когда я искал учебные проекты по data engineering, картина была примерно одинаковой: либо туториал на два инструмента («пишем в Kafka, читаем в Spark»), либо enterprise-схема без единой строчки кода....

Хабр

Невозможно быть вне политики с Airflow Cluster Policies

Привет, Хабр! Я Миша Онянов, Python-разработчик и платформенный инженер в крупнейшем проекте MAGNIT TECH – F&R. Из статьи вы узнаете, как с помощью механизма Cluster Policies в Apache Airflow вынести требования к DAG’ам в исполняемый код: - Поговорим о том, когда и зачем нужен отдельный слой Policies. - Посмотрим на примеры требований в больших data-инженерных проектах и способ их реализации с помощью политик. - Покажу нашу архитектуру, примеры кода и способы внедрения. - Сделаем выводы из моих ошибок, допущенных при разработке и внедрении. - В конце посмотрим, в каких ещё системах используется аналогичный механизм. Материал будет полезен всем, кто собирается внедрять или уже работает с Apache Airflow ✌️🥸

https://habr.com/ru/companies/magnit/articles/1043082/

#python #apache_airflow #apache_spark #data_engineering #mlops

Невозможно быть вне политики с Airflow Cluster Policies

Привет, Хабр! Меня зовут Михаил Онянов, я Python-разработчик и платформенный инженер в крупнейшем проекте компании Magnit Tech – F&R. Я создаю инфраструктуру для data-инженеров: разрабатываю...

Хабр

The BigQuery Optimization Playbook: Patterns and Practices for Cost and Performance (2026 Edition) by Nitin Gandhi is a new release on Leanpub!

Link: https://leanpub.com/thebigqueryoptimizationplaybook

#books #ebooks #newreleases #leanpublishing #selfpublishing #google_cloud_platform #ai #data_engineering

AI-метрдотель для ресторанной сети: архитектура, сценарии и интеграции

Чат-боты в ресторанном бизнесе чаще всего начинают с простой задачи: снять часть нагрузки с менеджеров и отвечать гостям на типовые вопросы. На практике многие такие решения быстро упираются в ограничения. Бот отвечает шаблонно, не понимает свободный текст, не учитывает контекст гостя, не видит актуальные данные ресторана и при нестандартном запросе просит переформулировать вопрос или вручную переключает диалог на сотрудника. В проекте для ресторанной сети задача была другой: сделать не справочного бота, а AI-метрдотеля, который работает как цифровой сотрудник. Он должен понимать свободный текст, учитывать историю гостя, работать с бронированиями, обращаться к меню и базе знаний, проверять актуальные данные в ресторанных системах, принимать платежи, собирать отзывы и передавать диалог менеджеру в сценариях, где требуется участие человека. Такой продукт требует не только языковой модели. В основе должны быть база знаний, профиль гостя, интеграции с операционными системами ресторана, RAG, сценарная маршрутизация, контроль доступа, логирование и техническая архитектура, рассчитанная на работу с реальными бронями, оплатами и персональными данными.

https://habr.com/ru/articles/1041262/

#aiассистенты #rag #telegram_api #crmсистемы #проектирование_api #postgresql #qdrant #data_engineering #автоматизация_бизнеса #чатботы

AI-метрдотель для ресторанной сети: архитектура, сценарии и интеграции

Чат-боты в ресторанном бизнесе чаще всего начинают с простой задачи: снять часть нагрузки с менеджеров и отвечать гостям на типовые вопросы. На практике многие такие решения быстро упираются в...

Хабр