https://peterdohertys.website/blog-posts/full-text-search-w-duckdb.html #DataWizard #FullTextSearch #DataFrame #HackerNews #ngated
une bibliothèque de validation de données pour les dataframes Polars et pandas, qui propose une interface pour consulter les problèmes de cohérence de données et aider à les résoudre : https://posit-dev.github.io/pointblank/
Un tutoriel de @markpitblado expliquant son utilisation avec Polars : https://www.markpitblado.me/blog/validating-data-with-pointblank-in-python/
Giới thiệu các tính năng độc đáo của thư viện C++ DataFrame dành cho phân tích dữ liệu hiệu năng cao. Đây là công cụ mã nguồn mở mạnh mẽ, hỗ trợ xử lý dữ liệu dạng bảng (table), chuỗi thời gian (time-series) với tốc độ vượt trội của C++. Thư viện cung cấp nhiều thuật toán thống kê, tài chính và khả năng thao tác dữ liệu linh hoạt tương tự như Pandas nhưng tối ưu hơn về bộ nhớ.
#Cpp #DataFrame #OpenSource #Programming #DataAnalysis #LapTrinh #PhanTichDuLieu #MaNguonMo
Apache Sedona is a cluster computing system for processing large-scale spatial data. Sedona extends existing cluster computing systems, such as Apache Spark, Apache Flink, and Snowflake, with a set of out-of-the-box distributed Spatial Datasets and Spatial SQL that efficiently load, process, and analyze large-scale spatial data across machines.
SedonaDB: A new geospatial DataFrame library written in Rust
#HackerNews #SedonaDB #Geospatial #Rust #DataFrame #Library #DataScience
Apache Sedona is a cluster computing system for processing large-scale spatial data. Sedona extends existing cluster computing systems, such as Apache Spark, Apache Flink, and Snowflake, with a set of out-of-the-box distributed Spatial Datasets and Spatial SQL that efficiently load, process, and analyze large-scale spatial data across machines.
Spark Connect. А нужны ли перемены?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.
https://habr.com/ru/companies/arenadata/articles/921246/
#spark_connect #apache #datalake #lakehouse #платформа_данных #bigdata #dataframe #интеграция_сервисов #apache_arrow #spark
Polars — «убийца Pandas» на максималках
Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными. В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.
https://habr.com/ru/articles/946788/
#polars #pandas #data_engineering #data_science #data_analysis #dataframe #library #python #rust #dataset
Phiên bản mới (3.6.0) của C++ DataFrame đã ra mắt! 🎉 Bản cập nhật này bao gồm nhiều cải tiến về phân tích, xử lý dữ liệu và đặc biệt là tài liệu được làm lại toàn diện về cả hình thức lẫn nội dung. Rất mong nhận được phản hồi từ cộng đồng!
#cpp #dataframe #datascience #laptrinh #cplusplus #thưviện #dữliệu
https://www.reddit.com/r/programming/comments/1ndeyjx/c_dataframe_new_version_360_is_out/
Phiên bản mới (3.6.0) của C++ DataFrame đã ra mắt với nhiều cải tiến về phân tích và xử lý dữ liệu, đặc biệt là việc làm lại đáng kể tài liệu hướng dẫn sử dụng. Mong nhận được phản hồi từ cộng đồng!
#cpp #dataframe #laptrinh #programming
https://www.reddit.com/r/programming/comments/1ndeyjx/c_dataframe_new_version_360_is_out/