NER не про токены: почему span важнее BIO
NER часто воспринимают как задачу классификации токенов: BIO-теги, последовательности меток, декодирование. Такой взгляд удобен с точки зрения моделей, но плохо отражает то, как NER работает в реальных системах. Сущности - это не токены, а фрагменты текста. Результаты работы NER-систем, как правило, представлены в виде спанов - с явными границами начала и конца (start / end) и типами сущностей. В этой статье мы разберём два уровня разметки в NER: span-level и token-level и покажем, какую роль каждый из них играет в практических пайплайнах.
https://habr.com/ru/companies/raft/articles/991404/
#ner #named_entity_recognition #аннотация_данных #машинное+обучение #machine_learning #nlp #span #token #персональные_данные #pii