5 фатальных ошибок при работе с Pandas (и как их избежать)

Pandas — швейцарский нож дата-аналитика. Пара строк, и данные отфильтрованы, сгруппированы и готовы к работе. Но часто бывает так: изящный скрипт, летавший на тестовом датасете, на реальных объемах превращается в тормозящего монстра, который воет кулером и выплевывает MemoryError. Почему так происходит? Главная беда — наши привычки из чистого Python. Циклы for, apply и построчная обработка идут вразрез с архитектурой Pandas, построенной поверх массивов NumPy. В этой статье разберем 5 самых частых (и фатальных) ошибок при работе с DataFrame. Посмотрим, как безобидные решения убивают производительность и память, и научимся переписывать код так, чтобы всё работало быстро, элегантно и «по-пандасовски». Спойлер: циклов не будет.

https://habr.com/ru/articles/1008910/

#python #pandas #анализ_данных #data_science #оптимизация_кода #антипаттерны #векторизация #numpy #memoryerror

5 фатальных ошибок при работе с Pandas (и как их избежать)

Привет, Хабр! Наверное, каждый питонист или дата-аналитик рано или поздно плотно знакомится с Pandas. Это настоящий швейцарский нож для работы с табличными данными: пара строк кода, и вот вы уже...

Хабр