Машинное обучение без боли: базовый гайд по scikit-learn на практическом примере

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

https://habr.com/ru/articles/1031044/

#python #scikitlearn #machine_learning #машинное_обучение #data_science #руководство #для_начинающих

Машинное обучение без боли: базовый гайд по scikit-learn на практическом примере

1. Введение: что за зверь этот scikit-learn и зачем он вам Если вы начинаете погружаться в машинное обучение на Python, scikit-learn (в народе просто sklearn ) — это ваша отправная точка. Это...

Хабр

Machine learning isn't just for computer scientists. Linguists use it for text analysis, biologists for image classification, historians for pattern detection in archives.

Our hands-on workshop is designed for researchers from all disciplines — no CS degree required.

👉 https://dkz2r.de/events/2026-04-01_carpentries_machine_learning_intro/

#MachineLearning #Python #ScikitLearn #DataLiteracy

Поиск аномалий: статистика или ML? Выбираем лучшее

Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах. В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе. Наш полигон: Credit Card Fraud Detection Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти? Эволюция методов: от простого к сложному Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа: IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы. Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства. Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

https://habr.com/ru/articles/996538/

#машинное+обучение #машинное_обучение #machinelearning #isolation_forest #anomaly_detection #поиск_аномалий #scikitlearn #mathematica #algorithms #python

Поиск аномалий: статистика или ML? Выбираем лучшее

Поиск аномалий( Outlier Detection ) является важной темой в машинном обучении. Алгоритмы такого типа актуальны и используются повсеместно: Кибербез, Банковские системы, предобработка данных, медицина,...

Хабр

Discover 7 practical scikit‑learn tricks that let you weave preprocessing pipelines directly into hyperparameter searches. Save time, avoid data leakage, and boost model reliability—all with clean, reusable code. Perfect for open‑source projects and reproducible research. Dive in to level up your ML workflow! #scikitlearn #pipeline #hyperparamtuning #mlresearch

🔗 https://aidailypost.com/news/7-scikit-learn-tricks-embed-preprocessing-pipelines-hyperparameter

🚀 Mới! Thư viện mã nguồn mở **sklearn‑diagnose** giúp “MRI” mô hình Scikit‑learn bằng LLM. Tự động phát hiện over/under‑fitting, variance cao, mất cân bằng lớp, dư thừa tính năng, nhiễu nhãn, rò rỉ dữ liệu, kèm điểm tin cậy, mức độ nghiêm trọng và đề xuất khắc phục. Cài pip install sklearn‑diagnose, hỗ trợ OpenAI, Anthropic, OpenRouter. #MachineLearning #AI #ScikitLearn #Python #OpenSource #HọcMáy #AI #MãNguồnMở

https://www.reddit.com/r/LocalLLaMA/comments/1q6famd/i_built_an_opensource_library

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

С помощью предобученной мультиязычной модели LaBSE и методов снижения размерности выяснил, что поэмы Лермонтова и Симонова, несмотря на столетнюю дистанцию, семантически близки. Подтвердил гипотезу, что русская патриотическая поэзия сохраняет устойчивое смысловое ядро, даже когда меняется стиль и идеология.

https://habr.com/ru/articles/979488/

#python #transformers #nlp #nltk #scikitlearn #нейросети #huggingface #torch #литература #поэзия

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

"Бородино" Лермонтова и "Ледовое побоище" Симонова две классические военно-патриотические поэмы, были созданы по мотивам крупных военных событий, но по-разному описывают ратный подвиг русского воина....

Хабр

Curious how much performance you can squeeze out of decision-tree models when generating pure SQL?

With Orbital 0.3 we redesigned how tree-based models compile to SQL, cutting query size by ~7x and getting up to 300% speedups in real workloads.

If you ever hit limits with ML inference in databases, this blog post digs into what changed and why it matters.

👉 https://posit.co/blog/orbital-0-3-0/

#Python #DataEngineering #MachineLearning #SQL #ScikitLearn #opensource

Accelerating Tree-Based Models in SQL with Orbital 0.3.0 - Posit

Orbital 0.3.0 reduces query size and execution time of tree-based machine learning models in SQL.

Posit

12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)

https://fed.brid.gy/r/https://korben.info/microsoft-ml-for-beginners-formation-machine-learn.html

We're hiring an open-source #python developer focused on modeling APIs!

https://tidyverse.org/blog/2025/11/python-open-source-developer/

#numpy #scipy #scikitlearn

Python Open-Source Developer

Posit is hiring a Python open-source developer to create more data analysis tools.

Ever wondered why dropping rows with NaNs can hurt your model? Our latest open‑source guide walks through a Pandas & Scikit‑learn workflow, showing how to spot missing target vs. predictor attributes, decide when to drop or impute, and keep your DataFrame clean for reliable machine‑learning results. Dive in to master the trade‑offs! #Pandas #ScikitLearn #MissingValues #Impute

🔗 https://aidailypost.com/news/first-pandas-scikitlearn-project-drops-rows-missing-values