Извлечение и обработка требований из документов с помощью NLP-инструментов
Приветствую всех читателей Хабр. Думаю, многим знаком этот сценарий: появляется задача — и первая мысль: «скормлю все LLM, она разберётся». Поначалу получается красиво, всё работает и есть первые результаты. Потом начинаешь проверять детали и замечаешь, что модель местами добавляет текст от себя. Потом смотришь на затрачиваемое время и понимаешь, что при текущей скорости обработка всего объёма документов закончится через год. Именно в такой ситуации я оказался, когда захотел обработать базу ГОСТов. Эта статья — про то, как я прошёл путь от « кидаем всё в LLM » до детерминированного пайплайна на классических NLP-инструментах . И про то, как в этом помогли те же самые языковые модели — но уже в роли консультантов, а не рабочей лошадки.



