une bibliothèque de validation de données pour les dataframes Polars et pandas, qui propose une interface pour consulter les problèmes de cohérence de données et aider à les résoudre : https://posit-dev.github.io/pointblank/

Un tutoriel de @markpitblado expliquant son utilisation avec Polars : https://www.markpitblado.me/blog/validating-data-with-pointblank-in-python/

#Python #tool #data #validation #dataframe

Pointblank

Giới thiệu các tính năng độc đáo của thư viện C++ DataFrame dành cho phân tích dữ liệu hiệu năng cao. Đây là công cụ mã nguồn mở mạnh mẽ, hỗ trợ xử lý dữ liệu dạng bảng (table), chuỗi thời gian (time-series) với tốc độ vượt trội của C++. Thư viện cung cấp nhiều thuật toán thống kê, tài chính và khả năng thao tác dữ liệu linh hoạt tương tự như Pandas nhưng tối ưu hơn về bộ nhớ.

#Cpp #DataFrame #OpenSource #Programming #DataAnalysis #LapTrinh #PhanTichDuLieu #MaNguonMo

https://www.reddit.com/r/o

🥁🐼 la version 3.0 de #pandas arrive bientôt
Découvrez les nouvelles fonctionnalités et les améliorations qui arrivent dans cette nouvelle édition de la bibliothèque de #dataframe #python : https://pandas.pydata.org/docs/dev/whatsnew/v3.0.0.html
- type string dédié (ça n'est plus un "object")
- copy-on-write : l'échantillonnage d'un dataframe crée désormais une copie et préserve l'original
- utilisation plus généralisée de la syntaxe pd.col pour faire de l'algèbre de colonnes
What’s new in 3.0.0 (Month XX, 2025) — pandas 3.0.0rc0+21.g499c5d4dd5 documentation

🌍🔧 "SedonaDB: #The 'revolutionary' #geospatial #DataFrame #library that no one asked for, written in #Rust because why not? 😒 It's like they took a detour through the desert to reinvent the wheel—again. 🚗💨"
https://sedona.apache.org/latest/blog/2025/09/24/introducing-sedonadb-a-single-node-analytical-database-engine-with-geospatial-as-a-first-class-citizen/ #SedonaDB #reinventing #wheel #tech #news #HackerNews #ngated
Introducing SedonaDB: A single-node analytical database engine with geospatial as a first-class citizen - Apache Sedona

Apache Sedona is a cluster computing system for processing large-scale spatial data. Sedona extends existing cluster computing systems, such as Apache Spark, Apache Flink, and Snowflake, with a set of out-of-the-box distributed Spatial Datasets and Spatial SQL that efficiently load, process, and analyze large-scale spatial data across machines.

Introducing SedonaDB: A single-node analytical database engine with geospatial as a first-class citizen - Apache Sedona

Apache Sedona is a cluster computing system for processing large-scale spatial data. Sedona extends existing cluster computing systems, such as Apache Spark, Apache Flink, and Snowflake, with a set of out-of-the-box distributed Spatial Datasets and Spatial SQL that efficiently load, process, and analyze large-scale spatial data across machines.

Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

https://habr.com/ru/companies/arenadata/articles/921246/

#spark_connect #apache #datalake #lakehouse #платформа_данных #bigdata #dataframe #интеграция_сервисов #apache_arrow #spark

Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и...

Хабр

Polars — «убийца Pandas» на максималках

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными. В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

https://habr.com/ru/articles/946788/

#polars #pandas #data_engineering #data_science #data_analysis #dataframe #library #python #rust #dataset

Polars — «убийца Pandas» на максималках

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов...

Хабр

Phiên bản mới (3.6.0) của C++ DataFrame đã ra mắt! 🎉 Bản cập nhật này bao gồm nhiều cải tiến về phân tích, xử lý dữ liệu và đặc biệt là tài liệu được làm lại toàn diện về cả hình thức lẫn nội dung. Rất mong nhận được phản hồi từ cộng đồng!
#cpp #dataframe #datascience #laptrinh #cplusplus #thưviện #dữliệu

https://www.reddit.com/r/programming/comments/1ndeyjx/c_dataframe_new_version_360_is_out/

Phiên bản mới (3.6.0) của C++ DataFrame đã ra mắt với nhiều cải tiến về phân tích và xử lý dữ liệu, đặc biệt là việc làm lại đáng kể tài liệu hướng dẫn sử dụng. Mong nhận được phản hồi từ cộng đồng!
#cpp #dataframe #laptrinh #programming

https://www.reddit.com/r/programming/comments/1ndeyjx/c_dataframe_new_version_360_is_out/

How to generate dataframe summaries with python and AI for a type of dataset #datascience #dataframe #pandas #llm #Ollama #mistral #dev (https://fundor333.com/post/2025/generate-dataframe-summaries-with-python/)