Mastodawn

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

Хабр

Habr Mar 25

Множественная регрессия: Расширяем горизонты прогнозирования

Хотите научиться предсказывать продажи, цены на недвижимость или спрос на товары, учитывая сразу несколько факторов? Вам поможет множественная регрессия. В этой статье вы узнаете: - Математическую основу множественной линейной регрессии – от уравнения гиперплоскости до метода наименьших квадратов; - Разбор полного кода на Python с использованием scikit-learn на реальном датасете Advertising (200 наблюдений); - Как интерпретировать коэффициенты модели; - Сравнение с простой линейной регрессией – насколько лучше работает множественная модель; - Расширение до полиномиальной регрессии, когда линейности недостаточно.

https://habr.com/ru/articles/1015102/

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия #множественная_регрессия #карьера_в_it #машинное_обучение_python #sklearn

Множественная регрессия: Расширяем горизонты прогнозирования

Введение В предыдущей статье разобрали простую линейную регрессию , где целевая переменная зависела от одного фактора, но в реальной жизни всё сложнее. Представьте, что мы прогнозируем стоимость...

Хабр

Habr Mar 15

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

Мета-модель для диагностики обучения нейросетей

1. Проблема Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную...

Хабр

Reddit Tech VN Bot Jan 30

🚀 Cập nhật sklearn‑diagnose: thư viện Python “máy MRI” cho mô hình ML giờ đã có chatbot tương tác! Bạn có thể trò chuyện với LLM để hỏi “Tại sao mô hình overfit?” hoặc nhận code mẫu, nhớ ngữ cảnh và khám phá sâu hơn. Giao diện React chạy locally trong trình duyệt. Đừng quên star repo! #MachineLearning #ML #AI #Python #sklearn #CôngNghệ #TríTuệNhânTạo #MLdiagnose

https://www.reddit.com/r/LocalLLaMA/comments/1qr5804/update_sklearndiagnose_now_has_an_interactive/

Habr Jan 25

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

https://habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

Компрессор для данных или как я написал свой первый custom transformer

Компрессирование стационарного временного ряда Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution),...

Хабр

Habr Dec 9

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

https://habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Обезьянья предобработка данных Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart» . Обезьянья работа - это когда ты что-то делаешь на автомате, не включая мозг...

Хабр