ランダムフォレスト → XGBoost → LightGBM:進化の流れで理解する機械学習モデル
https://qiita.com/KanNishida/items/565941faee9c67b64e14?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items
ランダムフォレスト → XGBoost → LightGBM:進化の流れで理解する機械学習モデル
https://qiita.com/KanNishida/items/565941faee9c67b64e14?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items
Борьба с дисбалансом классов. Ансамблевые и комбинированные методы
Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .
https://habr.com/ru/companies/kozhindev/articles/975626/
#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов
Борьба с дисбалансом классов. Oversampling
Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.
https://habr.com/ru/companies/kozhindev/articles/968714/
#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов
Борьба с дисбалансом классов. Undersampling
Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.
https://habr.com/ru/companies/kozhindev/articles/954402/
#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling
Лучшие фреймворки для машинного обучения в 2025 году
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.
https://habr.com/ru/companies/kryptonite/articles/950236/
#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax
Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API
В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров). Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.
https://habr.com/ru/articles/930360/
#pickingodds #коэффициенты_ставок #асинхронный_парсинг #rate_limiting #aiohttp #Redis #Kafka #TimescaleDB #LightGBM #ML_фильтрация_событий
【機械学習超入門】初心者でも実装できる分類アプリをサクッと作ろう!
https://qiita.com/hiromu2001/items/f4923450f653707ed1fd?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items
GCI優秀生・SIGNATE MASTERが考えるコンペのスコア向上Tips
https://qiita.com/masayuki-sera/items/8c330887f957642a3915?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items
В погоне за неизведанным: как ML-модель вредоносы искать училась
Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности. Недавно перед нами встала задача — создать ML-модель для обнаружения вредоносного ПО в сети. Причем распознавать она должна была не только уже ранее детектированное нами вредоносное ПО, но и совсем новые угрозы, которые появляются в большом количестве ежедневно. В качестве первого эксперимента решили сделать модель для работы с трафиком, который передается по протоколу HTTP, поскольку наши продукты успешно расшифровывают TLS-сессии, а внутри них частенько можно найти много интересного. В статье я подробно расскажу, как мы обучали модель, и поделюсь информацией о допущенных ошибках.
https://habr.com/ru/companies/pt/articles/883954/
#ml #машинное_обучение #песочница #sandbox #сетевой_трафик #детектирование #вредоносное_по #обнаружение_вредоносного_по #lightgbm #датасет
Методы классификации DGA инструментов
Одной из серьёзных угроз для информационной безопасности являются алгоритмически сгенерированные домены (DGA), которые позволяют злоумышленникам создавать множество поддельных доменов для обхода защитных систем и затруднения обнаружения вредоносной активности. В данной статье мы рассмотрим, что представляют собой DGA, каким образом они создаются и как методы машинного обучения могут быть применены для их эффективной классификации, с особым акцентом на анализ данных и классификацию наиболее популярных DGA семейств.