Machine learning isn't just for computer scientists. Linguists use it for text analysis, biologists for image classification, historians for pattern detection in archives.

Our hands-on workshop is designed for researchers from all disciplines — no CS degree required.

👉 https://dkz2r.de/events/2026-04-01_carpentries_machine_learning_intro/

#MachineLearning #Python #ScikitLearn #DataLiteracy

Поиск аномалий: статистика или ML? Выбираем лучшее

Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах. В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе. Наш полигон: Credit Card Fraud Detection Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти? Эволюция методов: от простого к сложному Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа: IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы. Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства. Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

https://habr.com/ru/articles/996538/

#машинное+обучение #машинное_обучение #machinelearning #isolation_forest #anomaly_detection #поиск_аномалий #scikitlearn #mathematica #algorithms #python

Поиск аномалий: статистика или ML? Выбираем лучшее

Поиск аномалий( Outlier Detection ) является важной темой в машинном обучении. Алгоритмы такого типа актуальны и используются повсеместно: Кибербез, Банковские системы, предобработка данных, медицина,...

Хабр

Discover 7 practical scikit‑learn tricks that let you weave preprocessing pipelines directly into hyperparameter searches. Save time, avoid data leakage, and boost model reliability—all with clean, reusable code. Perfect for open‑source projects and reproducible research. Dive in to level up your ML workflow! #scikitlearn #pipeline #hyperparamtuning #mlresearch

🔗 https://aidailypost.com/news/7-scikit-learn-tricks-embed-preprocessing-pipelines-hyperparameter

🚀 Mới! Thư viện mã nguồn mở **sklearn‑diagnose** giúp “MRI” mô hình Scikit‑learn bằng LLM. Tự động phát hiện over/under‑fitting, variance cao, mất cân bằng lớp, dư thừa tính năng, nhiễu nhãn, rò rỉ dữ liệu, kèm điểm tin cậy, mức độ nghiêm trọng và đề xuất khắc phục. Cài pip install sklearn‑diagnose, hỗ trợ OpenAI, Anthropic, OpenRouter. #MachineLearning #AI #ScikitLearn #Python #OpenSource #HọcMáy #AI #MãNguồnMở

https://www.reddit.com/r/LocalLLaMA/comments/1q6famd/i_built_an_opensource_library

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

С помощью предобученной мультиязычной модели LaBSE и методов снижения размерности выяснил, что поэмы Лермонтова и Симонова, несмотря на столетнюю дистанцию, семантически близки. Подтвердил гипотезу, что русская патриотическая поэзия сохраняет устойчивое смысловое ядро, даже когда меняется стиль и идеология.

https://habr.com/ru/articles/979488/

#python #transformers #nlp #nltk #scikitlearn #нейросети #huggingface #torch #литература #поэзия

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

"Бородино" Лермонтова и "Ледовое побоище" Симонова две классические военно-патриотические поэмы, были созданы по мотивам крупных военных событий, но по-разному описывают ратный подвиг русского воина....

Хабр

Curious how much performance you can squeeze out of decision-tree models when generating pure SQL?

With Orbital 0.3 we redesigned how tree-based models compile to SQL, cutting query size by ~7x and getting up to 300% speedups in real workloads.

If you ever hit limits with ML inference in databases, this blog post digs into what changed and why it matters.

👉 https://posit.co/blog/orbital-0-3-0/

#Python #DataEngineering #MachineLearning #SQL #ScikitLearn #opensource

Accelerating Tree-Based Models in SQL with Orbital 0.3.0 - Posit

Orbital 0.3.0 reduces query size and execution time of tree-based machine learning models in SQL.

Posit

12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)

https://fed.brid.gy/r/https://korben.info/microsoft-ml-for-beginners-formation-machine-learn.html

We're hiring an open-source #python developer focused on modeling APIs!

https://tidyverse.org/blog/2025/11/python-open-source-developer/

#numpy #scipy #scikitlearn

Python Open-Source Developer

Posit is hiring a Python open-source developer to create more data analysis tools.

Ever wondered why dropping rows with NaNs can hurt your model? Our latest open‑source guide walks through a Pandas & Scikit‑learn workflow, showing how to spot missing target vs. predictor attributes, decide when to drop or impute, and keep your DataFrame clean for reliable machine‑learning results. Dive in to master the trade‑offs! #Pandas #ScikitLearn #MissingValues #Impute

🔗 https://aidailypost.com/news/first-pandas-scikitlearn-project-drops-rows-missing-values

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур....

Хабр