Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.

https://habr.com/ru/companies/tochka/articles/899730/

#pandasprofiling #pandas #pandas_multiindex #dataprocessing #data_pipelines

Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки...

Хабр

Pandas profiling is a #Python module with which we can quickly do an #ExploratoryDataAnalysis with just a few lines of code:

from pandas_profiling import ProfileReport
report = ProfileReport(df_titanic)
report. to_file(output_file='report.html')

#EDA #DataScience #DataViz #DataMining #PandasProfiling