Извлечение и обработка требований из документов с помощью NLP-инструментов

Приветствую всех читателей Хабр. Думаю, многим знаком этот сценарий: появляется задача — и первая мысль: «скормлю все LLM, она разберётся». Поначалу получается красиво, всё работает и есть первые результаты. Потом начинаешь проверять детали и замечаешь, что модель местами добавляет текст от себя. Потом смотришь на затрачиваемое время и понимаешь, что при текущей скорости обработка всего объёма документов закончится через год. Именно в такой ситуации я оказался, когда захотел обработать базу ГОСТов. Эта статья — про то, как я прошёл путь от « кидаем всё в LLM » до детерминированного пайплайна на классических NLP-инструментах . И про то, как в этом помогли те же самые языковые модели — но уже в роли консультантов, а не рабочей лошадки.

https://habr.com/ru/companies/ascon/articles/1031940/

#nlp #spacy

Извлечение и обработка требований из документов с помощью NLP-инструментов

Приветствую всех читателей Хабр. Думаю, многим знаком этот сценарий: появляется задача — и первая мысль: «скормлю все LLM, она разберётся». Поначалу получается красиво, всё работает и есть первые...

Хабр

The clever people at explosion.ai (makers of #spaCy) have something new in the making, a framework to run NLP in collaboration with agentic AI. Sounds fascinating, but I yet have to read all the docs...

Homepage: https://beta.ellf.ai/
@ines 's Slides: https://speakerdeck.com/inesmontani/vibe-nlp-for-applied-nlp

#fanboy #nlp

Ellf · Your virtual NLP engineer

You’ve heard all about vibe coding – now say hello to vibe NLP. With Ellf, your team can take back control and build custom and fully private AI solutions in-house.

Что писала Цветаева о любви. Исследование лирики на Python

Как Марина Цветаева умела говорить о любви? Мне стало интересно исследовать творчество Цветаевой с помощью Python и вычислить те поэтические инструменты, которые она использует для выражения любви и описания таких чувств в поэзии. Некоторые открытия оказались весьма неожиданны.

https://habr.com/ru/articles/1019604/

#python #pymorphy2 #spacy #navec #чтение_книг #литература #поэзия #поэзия_и_проза #проза #научнопопулярное

Что писала Цветаева о любви. Исследование лирики на Python

Мне нравится еще, что Вы при мне Спокойно обнимаете другую, Не прочите мне в адовом огне Гореть за то, что я не Вас целую. В этом стихотворении, ставшем очень известным...

Хабр
@sascha_wolfer Have you looked into Holmes? It’s build on top of #spacy and I remember it being able to extract tokens from compound words: https://github.com/richardpaulhudson/holmes-extractor
GitHub - richardpaulhudson/holmes-extractor: Information extraction from English and German texts based on predicate logic

Information extraction from English and German texts based on predicate logic - richardpaulhudson/holmes-extractor

GitHub

Использование библиотеки spaCy для поиска сущностей в тексте

Снова приветствую всех читателей Хабр. В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную информацию по модели данных ЛОЦМАН: PLM. Эти данные планируется использовать для построения механизмов обработки поисковых запросов пользователей к базе ЛОЦМАН:PLM — в частности, для распознавания сущностей в тексте запроса. Это позволит понимать, на какие объекты модели данных ссылается пользователь: изделия, их параметры, типы документов и так далее. Для решения новой задачи я решил опробовать возможности библиотеки spaCy , в которой сущности можно распознавать на основе заранее заданных паттернов. В ходе экспериментов с библиотекой и её модулями EntityRuler и SpanRuler я столкнулся с рядом особенностей, и в данной статье делюсь накопленным опытом и наработками — надеюсь, они окажутся полезными и для вас.

https://habr.com/ru/articles/976600/

#nlp #spacy #ruler #python

Использование библиотеки spaCy для поиска сущностей в тексте

Введение Снова приветствую всех читателей Хабр. В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную...

Хабр

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

https://habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...

Хабр

Пейзажная лирика глазами кода

Где заканчивается слово и начинается образ? Использую Python для поиска особенностей творчества К.Г. Паустовского.

https://habr.com/ru/articles/968362/

#python #mystem #pymorphy2 #nltk #spacy #razdel

Пейзажная лирика глазами кода

Где заканчивается слово и начинается образ? Использую Python для поиска стилистических особенностей, формирующих картину природы в творчестве К.Г. Паустовского. Писателя Паустовского называют...

Хабр

I've been shit-talking #spaCy, but today I tried their dep_news_trf model and I take it back. Quite neat, in fact. Still, I really like #stanza.

#Python #NLP #linguistics

For anyone working in #DigitalHumanities, #spaCy is a powerful good old Python #NLP library for processing text: It can identify word types, base forms (lemmas), sentence structure (dependency parsing), recognize named entities (NER), etc. 1/

Spacy Analyzer - a Hugging Fac...
Spacy Analyzer - a Hugging Face Space by cstr

This application analyzes text to provide detailed morphological and syntactic information, including dependency parsing and named entity recognition, in multiple languages like German, English, Sp...