Mastodawn

I have some computations that I am joblibbing. The RAM consumption is very predictable as a function of the processes. However, the swap is also creeping up and I have no idea what can be causing this. Is there a rule-of-thumb for predicting swap use in parallel operations ?

#hivemind #joblib #python #computation #swap #ram #memory #calculations

Alexandre B A Villares 🐍Feb 10, 2025

«#Joblib is a set of tools to provide lightweight pipelining in #Python In particular:

transparent disk-#caching of functions and lazy re-evaluation (#memoize pattern)
easy simple #ParallelComputing

Joblib is optimized to be fast and robust on large data in particular and has specific optimizations for #numpy arrays. It is BSD-licensed.»

https://joblib.readthedocs.io/en/stable/

Joblib: running Python functions as pipeline jobs — joblib 1.5.3 documentation

Habr Jan 21, 2025

Joblib: максимум из параллельных вычислений в Python

Привет, Хабр! Сегодня разберемся с одной важной темой, которая может серьезно улучшить производительность Python-кода — параллельные вычисления с помощью Joblib . Joblib — это Python-библиотека, которая предоставляет инструменты для параллельных вычислений, кэширования и эффективной обработки данных. Она используется для ускорения выполнения операций, таких как многократные вычисления, обработка больших массивов данных и параллельная обработка однотипных задач.

https://habr.com/ru/companies/otus/articles/874810/

#joblib #python #параллельные_вычисления #обработка_данных

Joblib: максимум из параллельных вычислений в Python

Привет, Хабр! Сегодня разберемся с одной важной темой, которая может серьезно улучшить производительность Python‑кода — параллельные вычисления с помощью Joblib . Joblib — это...

Хабр

Habr Aug 9, 2024

[Перевод] Уроки, извлеченные из масштабирования до многотерабайтных датасетов

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить. Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

https://habr.com/ru/companies/magnus-tech/articles/834506/

#датасеты #big_data #joblib #машинное+обучение #параллелизация #spark #dask #виртуализация #инстансы #виртуальная_машина

Уроки, извлеченные из масштабирования до многотерабайтных датасетов

В этой статье я расскажу об уроках, которые вынес из работы с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить. Отмечу,...

Хабр

lully1804 Nov 8, 2022

Depuis plusieurs semaines, la #parallélisation des tâches avec #joblib dans #Python plantait quand le script était compilé. Solution : mettre à la fonction joblib.Parallel() un paramètre explicite prefer="threads" (je ne sais pas pourquoi, je suis sûr que c'est très logique, mais maintenant ça marche et je peux retravailler sur #Bibliostratus)