Top Secret: Ruby 애플리케이션에서 민감 정보 필터링 및 복원 전략
Top Secret은 정규 표현식과 NER(Named-Entity Recognition)을 결합하여 자유 텍스트 내의 민감 정보를 효과적으로 식별하고 필터링합니다.
Top Secret: Ruby 애플리케이션에서 민감 정보 필터링 및 복원 전략
Top Secret은 정규 표현식과 NER(Named-Entity Recognition)을 결합하여 자유 텍스트 내의 민감 정보를 효과적으로 식별하고 필터링합니다.
NER не про токены: почему span важнее BIO
NER часто воспринимают как задачу классификации токенов: BIO-теги, последовательности меток, декодирование. Такой взгляд удобен с точки зрения моделей, но плохо отражает то, как NER работает в реальных системах. Сущности - это не токены, а фрагменты текста. Результаты работы NER-систем, как правило, представлены в виде спанов - с явными границами начала и конца (start / end) и типами сущностей. В этой статье мы разберём два уровня разметки в NER: span-level и token-level и покажем, какую роль каждый из них играет в практических пайплайнах.
https://habr.com/ru/companies/raft/articles/991404/
#ner #named_entity_recognition #аннотация_данных #машинное+обучение #machine_learning #nlp #span #token #персональные_данные #pii
Как я пытался подружить PHP с NER — драма в 5-ти актах
Это статья - пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце-концов была решена, насколько правильно - не знаю, но, надеюсь, многим будет интересен и полезен мой опыт. Итак, небольшая драма в 5-ти актах.
https://habr.com/ru/articles/948014/
#php #ner #named_entity_recognition #nlpмодели #nlp_обработка_текста #nlp4code
Что такое NER, зачем он нужен и когда не поможет
Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста. Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения. Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.
https://habr.com/ru/articles/921698/
#нейросети_python #named_entity_recognition #ner #natural_language_processing #nlp #spacy #примеры_кода #обучение_моделей
От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию
В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов. Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации. Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security. Читать
https://habr.com/ru/companies/pt/articles/908556/
#машинное_обучение #обработка_естественного_языка #персональные_данные #информационная_безопасность #named_entity_recognition #machine_learning #nlp #data_security #защита_данных #ner
[Перевод] Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений. Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.
https://habr.com/ru/articles/878480/
#LLM #ai #RAI #бенчмарки #rag #named_entity_recognition #texttosql
Путь разметки данных для NER: от Open Source до Prodigy
Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.
https://habr.com/ru/articles/857338/
#Машинное_обучение #named_entity_recognition #annotation_processing #prodigy #artificial_intelligence #искусственный_интеллект #spacy #natural_language_processing
NER для начинающих: Простое объяснение с примерами на SpaCy
В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним , как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!
https://habr.com/ru/articles/826820/
#named_entity_recognition #ner #natural_language_processing #nlp #spacy #машинное_обучение #обработка_естественного_языка #python #примеры_кода #обучение_моделей
Угрозы под контролем: применение ML для автоматического анализа отчётов
Привет, Хабр! Меня зовут Валерия Чулкова, я продакт-менеджер R-Vision TIP. Сегодня совместно с Анастасией Перковой и Сергеем Ивановым мы расскажем про сервис для распознавания отчетов о киберугрозах, созданный командой экспертов в области машинного обучения R-Vision. В этой статье мы объединили усилия ML-разработчика и двух ML-аналитиков.
https://habr.com/ru/companies/rvision/articles/813163/
#threat_intelligence #информационная_безопасность #ioc #ner #named_entity_recognition #llm