NER не про токены: почему span важнее BIO

NER часто воспринимают как задачу классификации токенов: BIO-теги, последовательности меток, декодирование. Такой взгляд удобен с точки зрения моделей, но плохо отражает то, как NER работает в реальных системах. Сущности - это не токены, а фрагменты текста. Результаты работы NER-систем, как правило, представлены в виде спанов - с явными границами начала и конца (start / end) и типами сущностей. В этой статье мы разберём два уровня разметки в NER: span-level и token-level и покажем, какую роль каждый из них играет в практических пайплайнах.

https://habr.com/ru/companies/raft/articles/991404/

#ner #named_entity_recognition #аннотация_данных #машинное+обучение #machine_learning #nlp #span #token #персональные_данные #pii

NER не про токены: почему span важнее BIO

Дисклеймер . Все примеры текстов и сущностей в статье являются синтетическими и не содержат реальных персональных данных. Любые совпадения с реальностью случайны. Интро В последние годы системы...

Хабр

Как я пытался подружить PHP с NER — драма в 5-ти актах

Это статья - пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце-концов была решена, насколько правильно - не знаю, но, надеюсь, многим будет интересен и полезен мой опыт. Итак, небольшая драма в 5-ти актах.

https://habr.com/ru/articles/948014/

#php #ner #named_entity_recognition #nlpмодели #nlp_обработка_текста #nlp4code

Как я пытался подружить PHP с NER — драма в 5-ти актах

Это статья - пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце-концов была решена, насколько правильно - не знаю,...

Хабр

Что такое NER, зачем он нужен и когда не поможет

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста. Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения. Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

https://habr.com/ru/articles/921698/

#нейросети_python #named_entity_recognition #ner #natural_language_processing #nlp #spacy #примеры_кода #обучение_моделей

Что такое NER, зачем он нужен и когда не поможет

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения...

Хабр

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов. Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации. Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security. Читать

https://habr.com/ru/companies/pt/articles/908556/

#машинное_обучение #обработка_естественного_языка #персональные_данные #информационная_безопасность #named_entity_recognition #machine_learning #nlp #data_security #защита_данных #ner

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений,...

Хабр

[Перевод] Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений. Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

https://habr.com/ru/articles/878480/

#LLM #ai #RAI #бенчмарки #rag #named_entity_recognition #texttosql

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото Яни Каасинен на Unsplash . В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но...

Хабр

Путь разметки данных для NER: от Open Source до Prodigy

Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.

https://habr.com/ru/articles/857338/

#Машинное_обучение #named_entity_recognition #annotation_processing #prodigy #artificial_intelligence #искусственный_интеллект #spacy #natural_language_processing

Путь разметки данных для NER: от Open Source до Prodigy

Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется...

Хабр

NER для начинающих: Простое объяснение с примерами на SpaCy

В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним , как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!

https://habr.com/ru/articles/826820/

#named_entity_recognition #ner #natural_language_processing #nlp #spacy #машинное_обучение #обработка_естественного_языка #python #примеры_кода #обучение_моделей

NER для начинающих: Простое объяснение с примерами на SpaCy

Что же такое, этот ваш NER? Named Entity Recognition (NER) — это задача в области NLP (Natural Language Processing) , направленная на выделение фрагментов в тексте, относящихся к классам, таким как...

Хабр

Угрозы под контролем: применение ML для автоматического анализа отчётов

Привет, Хабр! Меня зовут Валерия Чулкова, я продакт-менеджер R-Vision TIP. Сегодня совместно с Анастасией Перковой и Сергеем Ивановым мы расскажем про сервис для распознавания отчетов о киберугрозах, созданный командой экспертов в области машинного обучения R-Vision. В этой статье мы объединили усилия ML-разработчика и двух ML-аналитиков.

https://habr.com/ru/companies/rvision/articles/813163/

#threat_intelligence #информационная_безопасность #ioc #ner #named_entity_recognition #llm

Угрозы под контролем: применение ML для автоматического анализа отчётов

Привет, Хабр! Меня зовут Валерия Чулкова, я продакт‑менеджер R‑Vision TIP. Сегодня вместе с Анастасией Перковой и Сергеем Ивановым мы расскажем про сервис для распознавания отчетов...

Хабр