Mastodawn

#KDE 's #Spectacle has #OCR support since Version 6.6 and it never worked for me even with #tesseract installed. Today I took the time and looked into it. It seems like the problem lies in the naming of the shared library files of tesseract. On Debian Sid at least it was called tesseract.so.5 and creating a symbolic link at /usr/lib/tesseract to that worked! Tried a few other things, but it seems this is the only thing working reliably for me.

Show thread

STOPDISINFORMATION 1d ago

Ponentes
José Manuel Fradejas Rueda
Catedrático Lengua Española #UniversidaddeValladolid
Francisco Gago Jover
Professor of Spanish, College of the Holy Cross (EEUU)
Objetivos
Comprender qué es el #HTR, en qué se diferencia del #OCR y en qué contextos resulta útil (patrimonio #archivosadministrativos, investigación, etc.)
Conocer el ciclo completo de trabajo con HTR: obtención imágenes del manuscrito, exportación de transcripciones, y los diferentes tipos de formatos estructurados reutilizables.

STOPDISINFORMATION 1d ago

Manuscritos, impresos antiguos e Inteligencia Artificial | Extensión Universitaria en Tudela | #UNED
Handwritten Text Recognition (HTR) esta tecnología en un componente clave del reconocimiento de patrones y del aprendizaje automático aplicado a #documentoshistóricos y contemporáneos. Los sistemas HTR y #OCR son hoy una verdadera revolución para convertir en texto explotable los fondos de #archivos y #bibliotecas, permitiendo su análisis masivo

https://extension.uned.es/actividad/49401?utm_source=noticiaweb1

Manuscritos, impresos antiguos e Inteligencia Artificial | Extensión Universitaria en Tudela | UNED

Página web de Actividades y cursos de la UNED

𝐋🅦🆄𝐢𝖇-ᖆ_🐧3d ago

Oh mince, #Enshittification en perspective pour #Joplin avec l'idée d'introduire à leur tour cette foutue #IA ✨, alors que personne n'a rien demandé!?

#Joplin c'est tellement le pied👑 pour la prise de #Notes, garder ses données, des bribes d'infos glanées ici et là, des médias (images, vidéos, sons, PDF, #OCR), la recherche qui fonctionne très bien pour les retrouver, la synchro en ligne chiffrée, #FOSS et +

début #Merdification💩et #Slopification🤯? 🤞🤞🤞

https://discourse.joplinapp.org/t/gsoc-2026-opportunities-for-the-ai-projects/49228/35?u=laurent

GSoC 2026: Opportunities for the AI projects

Please note: I didn't say generative AI. But I'm certain you'd appreciate some level of semantic search where eg. The words code, programming, and similar are searched when you type the name of a programming language. The semantic search function, which all the main AI projects listed above depend upon, requires an AI Model of about the same level as the next word generation on your keyboard. The generative AI gets things wrong and many times takes more action than people want. However keeping...

Joplin Forum

Habr 4d ago

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

В 2023 году мы рассказывали, как в Поиске по архивам появилось распознавание рукописных документов и почему сама по себе расшифровка архивного текста — нетривиальная задача. Старые почерки, сложная вёрстка, нестандартные формулировки и огромное разнообразие источников делают архивы трудным доменом даже для сильных OCR‑моделей. По мере развития сервиса стало ясно, что одной только расшифровки недостаточно: чтобы действительно помогать пользователям находить своих родственников, нужно не просто видеть слова на скане, а понимать, кто именно упомянут в записи, в какой роли и как связан с другими людьми. Теперь в Поиске по архивам работает новая модель распознавания документов. Она не только распознаёт текст архивного файла, но и структурирует информацию из него. Например, понимает роли и связи между разными людьми: «родившийся», «отец» и «мать» для рождения или «жених», «невеста», «свидетель» для брака. Меня зовут Даша Виноградова, я руковожу универсальными применениями компьютерного зрения в Яндексе. Вместе с Аней Сидоровой, главным разработчиком распознавания архивов, мы расскажем, как мы сделали шаг от распознавания текста к извлечению структуры и смысла из архивных документов: как мы перестраивали OCR‑пайплайн, почему нам не подошли универсальные VLM‑модели и как пытались разобраться, кто есть кто: отец, мать, жених или свидетель.

https://habr.com/ru/companies/yandex/articles/1038044/

#яндекс #ai #vlm #ocr

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

В 2023 году мы рассказывали, как в Поиске по архивам появилось распознавание рукописных документов и почему сама по себе расшифровка архивного текста — нетривиальная...

Хабр

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂5d ago

Résultat #OCR en arabe.

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂5d ago

MakeACopy #OCR on F-Droid.

AMYplification 5d ago

Σύγκριση εγγράφων με FineReader PDF: Εντοπισμός αλλαγών ακόμη και σε scans και σε 40 γλώσσες

Το FineReader PDF δεν λειτουργεί απλώς ως viewer ή editor, αλλά ως εργαλείο ελέγχου αλλαγών με επιχειρησιακή αξία. Η δυνατότητα σύγκρισης σε διαφορετικά format, η αυτόματη χρήση OCR και η εξαγωγή των διαφορών σε επεξεργάσιμη μορφή το καθιστούν ιδιαίτερα χρήσιμο για οργανισμούς που χρειάζονται ακρίβεια, ταχύτητα και τεκμηριωμένη αναθεώρηση.

https://amyplified.wordpress.com/2026/05/26/%cf%83%cf%8d%ce%b3%ce%ba%cf%81%ce%b9%cf%83%ce%b7-%ce%b5%ce%b3%ce%b3%cf%81%ce%ac%cf%86%cf%89%ce%bd-%ce%bc%ce%b5-finereader-pdf-%ce%b5%ce%bd%cf%84%ce%bf%cf%80%ce%b9%cf%83%ce%bc%cf%8c%cf%82-%ce%b1%ce%bb/

-=Kernel-Error=-Oct 29, 2024

VueScan: Beste Scannersoftware für alte und vielseitige Scanner

VueScan hält den alten Fujitsu ScanSnap S1500 unter Linux am Leben, mit OCR und durchsuchbarem PDF auf Knopfdruck. Zwei Entwickler hinter dem Tool, schneller Support, unterstützt gefühlt jeden Scanner auf diesem Planeten.

https://www.kernel-error.de/2024/10/29/empfehlung-der-scannersoftware-vuescan/