Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

https://habr.com/ru/companies/lentatech/articles/914884/

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной...

Хабр

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/

#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話 | DevelopersIO

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話 | DevelopersIO

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными проектами и подходами в области обработки данных, об одном из которых пойдет речь далее. В этой статье расскажу о том, как можно повысить эффективность хранения данных за счет уменьшения их дублирования. Разберем, что из себя представляют Slowly Changing Dimensions-2 (далее SCD-2) таблицы и самостоятельно реализуем на PySpark алгоритм сохранения данных в них. Попутно поговорим о том, как находить изменения в любой таблице, даже если отсутствуют поля для выбора изменившихся записей, и научимся получать из созданной SCD-2 таблицы срезы на требуемую дату в прошлом.

https://habr.com/ru/companies/X5Tech/articles/911716/

#SCD #spark #python #обработка_данных #хранение_данных #нахождение_дельты #история_изменений #алгоритм_нахождения_изменений #pyspark #сжатие_данных

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных, а в 2024 году присоединился к одной из продуктовых команд в Х5 Tech. За это время успел познакомиться с несколькими...

Хабр

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする
https://dev.classmethod.jp/articles/aws-glue-for-spark-aws-codeartifact-pypi/

#dev_classmethod #AWS_Glue #AWS_CodeArtifact #PyPI #Spark #PySpark

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする | DevelopersIO

ライブラリをrequirements.txtで指定する場合とそうでない場合で設定方法が異なるため注意が必要です。

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする | DevelopersIO

Контролируем качество данных с помощью Python

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

https://habr.com/ru/companies/otus/articles/903634/

#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных

Контролируем качество данных с помощью Python

Сегодня мы будем говорить о не совсем обычном тестировании. Уточнение собранных данных — большая головная боль для специалистов по анализу данных и аналитиков. Большинство...

Хабр
How well do you think you know your data, #dataengineers and #datascientists ? You might want to profile your data more.
I've worked with the #Python package #ydata-profiling . It has some issues. But when I got it working, I found some surprising details about a dataset that I thought I already knew quite well. #pyspark
https://marcel-jan.eu/datablog/2025/04/24/profiling-data-with-ydata-in-pyspark/
Profiling data with ydata in PySpark | Expedition Data

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた
https://dev.classmethod.jp/articles/aws-glue5-python-requirements-txt/

#dev_classmethod #AWS_Glue #PySpark #Spark

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた | DevelopersIO

re:Invent2024 で発表されたAWS Glue 5.0の新機能の一つとして、Sparkジョブで利用するPythonのライブラリを`requirements.txt`で指定できるようになりましたので、実際に検証してみました。

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた | DevelopersIO

AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き)
https://dev.classmethod.jp/articles/aws-glue-for-spark-tutorial/

#dev_classmethod #AWS_Glue #Spark #PySpark

AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き) | DevelopersIO

AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き) | DevelopersIO

AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/aws-glue-for-spark-databricks/

#dev_classmethod #Databricks #AWS_Glue #PySpark #JDBC

AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた | DevelopersIO

AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた | DevelopersIO
Spark JDBC Connection To MsSQL Using Kerberos - Failed to find any Kerberos tgt

While trying to connect Spark with MSSQL, we are setting up a JDBC connection and want to Kerberize it. Using the keytab and principal we created, we were able to establish a connection with a simple

Stack Overflow