Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Данная статья является четвертой частью цикла статей о борьбе с дисбалансом классов. Предыдущие статьи: В первой статье...

Хабр

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Oversampling

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье...

Хабр

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели...

Хабр

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур....

Хабр

Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров). Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.

https://habr.com/ru/articles/930360/

#pickingodds #коэффициенты_ставок #асинхронный_парсинг #rate_limiting #aiohttp #Redis #Kafka #TimescaleDB #LightGBM #ML_фильтрация_событий

Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

Контекст В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича —...

Хабр
【機械学習超入門】初心者でも実装できる分類アプリをサクッと作ろう! - Qiita

今回のゴール! 下記画像 のように、服の画像 を送るだけで、その服がオフィスカジュアルなのか、カジュアルなのかを判断するモデル を一緒に作っていきましょう! オフィスカジュアルってなんだ? 現在私は北海道の大手小売業でお惣菜担当して働いています。 店舗勤務なので普...

Qiita
GCI優秀生・SIGNATE MASTERが考えるコンペのスコア向上Tips - Qiita

GCI優秀生・SIGNATE MASTERが考えるコンペのスコア向上Tips 機械学習コンペティションに参加し始めたばかりの方の中には、なかなかスコアが伸びずに悩んでいる方も多いのではないでしょうか。私自身も、始めたばかりの頃は同じように壁にぶつかり、思うように結果が出な...

Qiita

В погоне за неизведанным: как ML-модель вредоносы искать училась

Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности. Недавно перед нами встала задача — создать ML-модель для обнаружения вредоносного ПО в сети. Причем распознавать она должна была не только уже ранее детектированное нами вредоносное ПО, но и совсем новые угрозы, которые появляются в большом количестве ежедневно. В качестве первого эксперимента решили сделать модель для работы с трафиком, который передается по протоколу HTTP, поскольку наши продукты успешно расшифровывают TLS-сессии, а внутри них частенько можно найти много интересного. В статье я подробно расскажу, как мы обучали модель, и поделюсь информацией о допущенных ошибках.

https://habr.com/ru/companies/pt/articles/883954/

#ml #машинное_обучение #песочница #sandbox #сетевой_трафик #детектирование #вредоносное_по #обнаружение_вредоносного_по #lightgbm #датасет

В погоне за неизведанным: как ML-модель вредоносы искать училась

Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности ( PT Expert Security Center...

Хабр

Методы классификации DGA инструментов

Одной из серьёзных угроз для информационной безопасности являются алгоритмически сгенерированные домены (DGA), которые позволяют злоумышленникам создавать множество поддельных доменов для обхода защитных систем и затруднения обнаружения вредоносной активности. В данной статье мы рассмотрим, что представляют собой DGA, каким образом они создаются и как методы машинного обучения могут быть применены для их эффективной классификации, с особым акцентом на анализ данных и классификацию наиболее популярных DGA семейств.

https://habr.com/ru/articles/888234/

#DGA #dnsтрафик #lightgbm #датасет

Методы классификации DGA инструментов

Привет Habr! Меня зовут Никита, я исследователь R&D-центра компании UDV Group. Мы занимаемся разработкой решений в сфере информационной безопасности с применением ML.Сегодня расскажу, как мы...

Хабр
ド素人がClaudeと2人3脚でばんえい競馬AI予想アプリを作っちゃった話 - Qiita

はじめにみなさん、「ばんえい競馬」って知っていますか?北海道帯広市でのみ行われている、1トンもある馬が重い荷物を積んだそりを引くという世界でも珍しいレース。私は現地観戦がキッカケでこの競馬の魅…

Qiita