@sascha_wolfer Have you looked into Holmes? It’s build on top of #spacy and I remember it being able to extract tokens from compound words: https://github.com/richardpaulhudson/holmes-extractor
GitHub - richardpaulhudson/holmes-extractor: Information extraction from English and German texts based on predicate logic

Information extraction from English and German texts based on predicate logic - richardpaulhudson/holmes-extractor

GitHub

Использование библиотеки spaCy для поиска сущностей в тексте

Снова приветствую всех читателей Хабр. В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную информацию по модели данных ЛОЦМАН: PLM. Эти данные планируется использовать для построения механизмов обработки поисковых запросов пользователей к базе ЛОЦМАН:PLM — в частности, для распознавания сущностей в тексте запроса. Это позволит понимать, на какие объекты модели данных ссылается пользователь: изделия, их параметры, типы документов и так далее. Для решения новой задачи я решил опробовать возможности библиотеки spaCy , в которой сущности можно распознавать на основе заранее заданных паттернов. В ходе экспериментов с библиотекой и её модулями EntityRuler и SpanRuler я столкнулся с рядом особенностей, и в данной статье делюсь накопленным опытом и наработками — надеюсь, они окажутся полезными и для вас.

https://habr.com/ru/articles/976600/

#nlp #spacy #ruler #python

Использование библиотеки spaCy для поиска сущностей в тексте

Введение Снова приветствую всех читателей Хабр. В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную...

Хабр

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

https://habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...

Хабр

Пейзажная лирика глазами кода

Где заканчивается слово и начинается образ? Использую Python для поиска особенностей творчества К.Г. Паустовского.

https://habr.com/ru/articles/968362/

#python #mystem #pymorphy2 #nltk #spacy #razdel

Пейзажная лирика глазами кода

Где заканчивается слово и начинается образ? Использую Python для поиска стилистических особенностей, формирующих картину природы в творчестве К.Г. Паустовского. Писателя Паустовского называют...

Хабр

I've been shit-talking #spaCy, but today I tried their dep_news_trf model and I take it back. Quite neat, in fact. Still, I really like #stanza.

#Python #NLP #linguistics

For anyone working in #DigitalHumanities, #spaCy is a powerful good old Python #NLP library for processing text: It can identify word types, base forms (lemmas), sentence structure (dependency parsing), recognize named entities (NER), etc. 1/

Spacy Analyzer - a Hugging Fac...
Spacy Analyzer - a Hugging Face Space by cstr

This application analyzes text to provide detailed morphological and syntactic information, including dependency parsing and named entity recognition, in multiple languages like German, English, Sp...

#reggae #abstract #chill #spacy #no_ai_bullshit
It doesn't always have to be concrete; we would say this
album is more abstract, like a painting by Jackson Pollock.
We make music not entertainment.
U-Tube
https://youtube.com/playlist?list=OLAK5uy_mwO9JiVASD9RRL6v5nisvUKSPj-aD1Io4&si=a4W2THtEOxnhOtOM
Apple
https://music.apple.com/de/album/up-dub-session-ten/1837975105
Deezer
https://www.deezer.com/de/album/816713151
Ur fav isn´t listed, check diz.
https://frontl.ink/k5bm2nb

Переводим fb2 книжки, с нейронками, для себя

Хотел написать классическую статью, ни разу не писал, ради интереса попросил ChatGPT и она все написала, стало скучно до жути, эта «классическая » статья будет под спойлером, она реально по теме, написана с двух запросов, а далее будет кратенько и технически что и зачем, со ссылками на примеры. Для технической части нужны знания python, llm, cuda и что такое OpenAI API.

https://habr.com/ru/articles/946870/

#перевод #переводы #fb2 #scifi #spacy #python #cuda #llm #llmмодели #llmприложения

Переводим fb2 книжки, с нейронками, для себя

Получилось так что я купил книжку на английском, в Австралии (автор оттуда и там она дешевле в 3 раза чем у Гугла), но прочитать не смог, очень богатый мир , много странных слов, начал терять контекст...

Хабр

[LangExtract](https://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-information-extraction-library/) has got me curious, but I don't get what makes it different from a [spacy-llm/prodigy](https://prodi.gy/docs/large-language-models) setup. Is it just that I am spared the effort of chunking long input and/or constructing output JSON from entities and offsets by writing the corresponding python code myself?...

Ah, one more difference is that langextract is #OpenSource whereas prodigy is not (?). (On the other hand, prodigy has a better integration with a correction+training workflow.)

#llm #google #langextract #nlp #spacy #prodigy #ner

Introducing LangExtract: A Gemini powered information extraction library- Google Developers Blog

Explore LangExtract: a Gemini-powered, open-source Python library for reliable, structured information extraction from unstructured text with precise source grounding.