Разметка данных: самая дорогая часть машинного обучения
Доброго времени суток, «Хабр»! В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных. Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта. Принимайте стратегические удобное положение, ну а я начинаю свое повествование.
https://habr.com/ru/companies/bothub/articles/985662/
#разметка_данных #ai #ии #нейросеть #машинное_обучение #Data_Science #dataset #quality_assurance #active_learning #Weak_Supervision
