Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

https://habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

1) Зачем нужен "отказ от ответа"? В табличной классификации ошибка часто стоит дороже, чем “не знаю”. Поэтому вместо “модель всегда отвечает” полезнее режим selective classification (abstention):...

Хабр

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на...

Хабр

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Данная статья является четвертой частью цикла статей о борьбе с дисбалансом классов. Предыдущие статьи: В первой статье...

Хабр

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Oversampling

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье...

Хабр

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/968678/

#firewall #security #highload #c++ #catboost #ml

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет...

Хабр

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко: 22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер( categorical re-coder )". Он сохраняет категории в модели и так же может перекодировать...

Хабр

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели...

Хабр

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур....

Хабр
New pre-proof in Journal of Molecular Liquids: ML predicts NMR chemical shifts for metal complexes (45Sc, 49Ti, 89Y, 91Zr, 139La). CatBoost+RDKit ≈7% RMSE for Sc/Y/La; 9% Ti; 13% Zr. SHAP highlights cyclic motifs & electrostatics. Read: https://doi.org/10.1016/j.molliq.2025.128417 #NMR #MachineLearning #MaterialsScience #TransitionMetals #RDKit #CatBoost #SHAP

Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях.

https://habr.com/ru/companies/vtb/articles/938988/

#shap #machine_learning #catboost #data_science #python #моделирование

Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. Наш кластер отвечает за: выстраивание и внедрение процессов AutoML, за разработку...

Хабр