Target Encoding: кодирование категориальных признаков без утечки данных
Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.
https://habr.com/ru/companies/otus/articles/1017046/
#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков
