Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели...

Хабр

Сбалансированные данные – успех в ML: Oversampling и Undersampling

Данные, используемые для обучения моделей машинного обучения, должны быть идеально сбалансированы по всем категориям и классам. Однако суровая жизнь часто преподносит нам данные, в которых присутствует значительный дисбаланс. Такой дисбаланс может привести к нежелательным смещениям и ошибкам в моделях, что, в свою очередь, существенно снижает их эффективность и точность. Существуют такие подходы к устранению дисбаланса какOversampling и Undersampling. Oversampling – это процесс увеличения количества примеров в менее представленных классах, в то время как Undersampling – это процесс уменьшения количества примеров в более представленных классах. Оба эти метода имеют свои преимущества и недостатки, и выбор между ними зависит от конкретной задачи и характеристик данных.

https://habr.com/ru/companies/otus/articles/781042/

#python #otus #данные #oversampling #undersampling

Сбалансированные данные – успех в ML: Oversampling и Undersampling

Данные, используемые для обучения моделей машинного обучения, должны быть идеально сбалансированы по всем категориям и классам. Однако суровая жизнь часто преподносит нам данные, в которых...

Хабр

Undersampling is a Minimax Optimal Robustness Intervention in Nonparametric Classification

Niladri S. Chatterji, Saminul Haque, Tatsunori Hashimoto

Action editor: Sivan Sabato.

https://openreview.net/forum?id=r6oHDYOZ6p

#undersampling #undersampled #classification

Undersampling is a Minimax Optimal Robustness Intervention in...

While a broad range of techniques have been proposed to tackle distribution shift, the simple baseline of training on an undersampled balanced dataset often achieves close to...

OpenReview

Undersampling is a Minimax Optimal Robustness Intervention in Nonparametric Classification

https://openreview.net/forum?id=r6oHDYOZ6p

#undersampling #undersampled #classification

Undersampling is a Minimax Optimal Robustness Intervention in...

While a broad range of techniques have been proposed to tackle distribution shift, the simple baseline of training on an undersampled balanced dataset often achieves close to...

OpenReview