Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.

https://habr.com/ru/companies/otus/articles/1017046/

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков

Target Encoding: кодирование категориальных признаков без утечки данных

Привет, Хабр! У вас столбец «город» с 800 уникальными значениями. One‑hot encoding превратит его в 800 бинарных столбцов, разреженную матрицу и модель , которая переобучится...

Хабр