Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

Добро пожаловать на мой маленький тестовый полигон. В этой статье я расскажу, как столкнул лбами двадцать один алгоритм машинного обучения - от старой доброй линейной регрессии, KNN, случайного леса до троицы табличных королей (XGBoost, LightGBM, CatBoost), нескольких многослойных нейросетей и нейросетей с механизмом внимания. И я заставил их всех решать задачу, которая на первый взгляд кажется абсурдной (только на первый взгляд?). Большинство бенчмарков в машинном обучении вроде MNIST или Titanic давно натренированы до дыр. На картинках побеждают свертки, а на табличных данных – градиентный бустинг. Предсказуемо. Скучно. Поэтому я решил устроить особый стресс-тест, соревнование немного иного формата, проверка на предельную прочность на табличных данных. Да... еще среди участников забега будет один новичок, о котором большинство читателей, вероятно, слышит впервые. Он не раскручен и не имеет армии поклонников на Kaggle. Но уже имеет красивое название – Полигармонический каскад. Это глубокая архитектура, выведенная из принципов теории случайных функций и индифферентности. В этом тестировании он выступал в роли новичка-аутсайдера. Но то, что он сделал с фаворитами, выглядит как читерство. Но об этом позже. Итак, что же это за задача?

https://habr.com/ru/articles/1044858/

#машинное+обучение #нейросети #benchmark #сравнение_моделей #lightgbm #xgboost #catboost #random_forest #исследование

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

Эпиграф Эксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML. Может быть это соревнование, которого не должно было быть? Это приглашение к...

Хабр
ランダムフォレスト → XGBoost → LightGBM:進化の流れで理解する機械学習モデル - Qiita

表形式データに対して機械学習の予測モデルを作るとき、このような疑問を持った経験はないでしょうか。 「結局、ランダムフォレスト、XGBoost、LightGBM、どれを使えばいいんだろうか?」 とりあえずXGBoostを使う。 あるいは「速いらしい」という理由でLightG...

Qiita

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Данная статья является четвертой частью цикла статей о борьбе с дисбалансом классов. Предыдущие статьи: В первой статье...

Хабр

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Oversampling

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье...

Хабр

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели...

Хабр

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур....

Хабр

Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров). Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.

https://habr.com/ru/articles/930360/

#pickingodds #коэффициенты_ставок #асинхронный_парсинг #rate_limiting #aiohttp #Redis #Kafka #TimescaleDB #LightGBM #ML_фильтрация_событий

Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

Контекст В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича —...

Хабр
【機械学習超入門】初心者でも実装できる分類アプリをサクッと作ろう! - Qiita

今回のゴール! 下記画像 のように、服の画像 を送るだけで、その服がオフィスカジュアルなのか、カジュアルなのかを判断するモデル を一緒に作っていきましょう! オフィスカジュアルってなんだ? 現在私は北海道の大手小売業でお惣菜担当して働いています。 店舗勤務なので普...

Qiita
GCI優秀生・SIGNATE MASTERが考えるコンペのスコア向上Tips - Qiita

GCI優秀生・SIGNATE MASTERが考えるコンペのスコア向上Tips 機械学習コンペティションに参加し始めたばかりの方の中には、なかなかスコアが伸びずに悩んでいる方も多いのではないでしょうか。私自身も、始めたばかりの頃は同じように壁にぶつかり、思うように結果が出な...

Qiita

В погоне за неизведанным: как ML-модель вредоносы искать училась

Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности. Недавно перед нами встала задача — создать ML-модель для обнаружения вредоносного ПО в сети. Причем распознавать она должна была не только уже ранее детектированное нами вредоносное ПО, но и совсем новые угрозы, которые появляются в большом количестве ежедневно. В качестве первого эксперимента решили сделать модель для работы с трафиком, который передается по протоколу HTTP, поскольку наши продукты успешно расшифровывают TLS-сессии, а внутри них частенько можно найти много интересного. В статье я подробно расскажу, как мы обучали модель, и поделюсь информацией о допущенных ошибках.

https://habr.com/ru/companies/pt/articles/883954/

#ml #машинное_обучение #песочница #sandbox #сетевой_трафик #детектирование #вредоносное_по #обнаружение_вредоносного_по #lightgbm #датасет

В погоне за неизведанным: как ML-модель вредоносы искать училась

Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности ( PT Expert Security Center...

Хабр