Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента. В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

https://habr.com/ru/companies/redmadrobot/articles/1011450/

#ai #llm #ocr #ner #pii #computer_vision #маскирование_данных #обработка_изображений #nlp #rnd

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента. В этой...

Хабр

Our paper "NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories" by @GenAsefa Zongxiong Chen, @shufan Mary Ann Tan, Zhaotai Liu, @sonjas0815 & @lysander07 was accepted at The ACM Web Conference 2026.
...as it is still not sure whether WWW2026 will take place (in Dubai) we published the paper already in #arxiv

https://arxiv.org/abs/2603.05750

#AI #NER #NLP #researchdatamanagement @NFDI4DS @fiz_karlsruhe #semanticweb

Сравнение RuModernBERT и multilingual-e5-base для NER на русском

Однажды при мне два ИИ экcперта закусились на тему какая модель лучше извлекает именованные данные на русском языке: RuModernBERT или multilingual-e5-base. Я послушал их аргументы и решил поставить небольшой эксперимент на реальных данных (благо данных хоть отбавляй). Итак, условия NER задачи:

https://habr.com/ru/articles/1006998/

#ner #e5 #rumodernbert

Сравнение RuModernBERT и multilingual-e5-base для NER на русском

1. Введение Однажды при мне два ИИ экcперта закусились на тему какая модель лучше извлекает именованные данные на русском языке: RuModernBERT или multilingual-e5-base. Я послушал их аргументы и решил...

Хабр

Wrote an article and published a nuget package sitting here in the hospital. https://www.mostlylucid.net/blog/simple-ocr-ner-extraction
(RDP over tailscale rules 🤓)
Companion CLI and nuget packages linked at the top. Makes OCR & Named Entity Extraction SUPER EASY.

#ocrr #llm #ner

Simple OCR and NER Feature Extraction in C# with ONNX (English)

NuGet NuGet Downloads GitHub Release (CLI) As I've been building lucidRAG I'm reading social media where people keep asking the same thing. 'How do you get...

mostlylucid

NER не про токены: почему span важнее BIO

NER часто воспринимают как задачу классификации токенов: BIO-теги, последовательности меток, декодирование. Такой взгляд удобен с точки зрения моделей, но плохо отражает то, как NER работает в реальных системах. Сущности - это не токены, а фрагменты текста. Результаты работы NER-систем, как правило, представлены в виде спанов - с явными границами начала и конца (start / end) и типами сущностей. В этой статье мы разберём два уровня разметки в NER: span-level и token-level и покажем, какую роль каждый из них играет в практических пайплайнах.

https://habr.com/ru/companies/raft/articles/991404/

#ner #named_entity_recognition #аннотация_данных #машинное+обучение #machine_learning #nlp #span #token #персональные_данные #pii

NER не про токены: почему span важнее BIO

Дисклеймер . Все примеры текстов и сущностей в статье являются синтетическими и не содержат реальных персональных данных. Любые совпадения с реальностью случайны. Интро В последние годы системы...

Хабр
#news ⚡ Dax startet deutlich im Minus – Nervosität wegen Grönland-Debatte: Der Dax ist am Dienstag mit deutlichen Verlusten in den Handelstag gestartet. Gegen 9:30 Uhr wurde der deutsche Leitindex mit rund 24.... https://hubu.de/?p=311245 | #dax #groenlanddebatte #minus #ner
Dax startet deutlich im Minus - Nervosität wegen Grönland-Debatte - Hubu.de - News & FreeMail

Der Dax ist am Dienstag mit deutlichen Verlusten in den Handelstag gestartet.

Hubu.de - News & FreeMail

Problem: we keep using frontier LLMs as glue for jobs that are already solved.

Solution: run OCR + NER locally in C# with ONNX Runtime. Deterministic extraction on ingest. Store the entities. Use an LLM later only if you actually need synthesis.

OCR with Tesseract, then BERT NER via ONNX in .NET. No Python, no cloud, no tokens.

This is my 'for beginners' article. I'm DEEP in OCR but realised I never explained the quickest way to do this *locally*.

https://www.mostlylucid.net/blog/simple-ocr-ner-extraction

#CSharp #DotNet #ONNX #OnnxRuntime #OCR #NER #LocalAI #RAG #DocumentAI

Simple OCR and NER Feature Extraction in C# with ONNX (English)

NuGet NuGet Downloads GitHub Release (CLI) As I've been building lucidRAG I'm reading social media where people keep asking the same thing. 'How do you get...

mostlylucid

Mô hình NER 500 MB (0.1 B tham số) chạy cục bộ, nhận dạng thực thể (người, địa điểm, thời gian, tổ chức…) trong bất kỳ văn bản nào. Có thể tự fine‑tune trên CPU cho mọi lĩnh vực hoặc ngôn ngữ (ví dụ tiếng Tây Ban Nha) bằng thư viện Artifex, không cần GPU. Ngoài ra còn API nếu không muốn tự host. #NER #AI #MachineLearning #CôngNghệ #XửLýNgônNgữ #MôHìnhAI #Vietnam

https://www.reddit.com/r/LocalLLaMA/comments/1qbnebk/500mb_named_entity_recognition_ner_model_to/

Talán hallottatok róla, hogy a Tisza lefoglalta a biztosvalasztas.hu domaint.

A biztosvalasztas.ru még szabad volt.

Már nem az 😂

#magyarpolitika #magyarország #kampány #fidesz #tisza #ner #politika

Built a cybersecurity NER model. 13 entity types. 1,500+ security entities. It's on HuggingFace.

Spent months extracting and annotating cybersecurity entities from real job postings, threat reports, and compliance docs. Turning it into a tool anyone can use.

What it extracts:
- Security roles (CISO, SOC Analyst, Pen Tester)
- Certifications (CISSP, OSCP, CEH)
- Tools (Splunk, CrowdStrike, Metasploit)
- Threats (APT, ransomware, phishing)
- Attack techniques (SQLi, XSS, RCE)
- CVEs, frameworks (MITRE ATT&CK, NIST), regulations (GDPR, PCI-DSS)
- Technical skills, acronyms, compliance terms

Built for:
- Threat intel parsing
- Security talent matching
- Skills inventory extraction
- Compliance doc analysis

The tech:
- RoBERTa transformer, domain-adapted on 40K security texts
- spaCy pipeline for easy integration
- 69% F1 score (and improving)

Where I need help:
- More annotated security text (CVs, job posts, threat reports)
- Edge cases the model misses
- Ideas for entity types I haven't covered

Model: https://huggingface.co/pki/cybersec-ner-roberta

#cybersecurity #NER #NLP #infosec #opensource

pki/cybersec-ner-roberta · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.