merve (@mervenoyann)

비전-언어 모델(VLM) 관련 서적에 새로 두 장이 추가되었다는 공지입니다. 문서 AI 장은 기존 모델부터 최신 VLM 접근법, 검색(retrieval) 등을 정리하고, 비디오 언어 모델 장은 비디오 이해와 관련 기법 및 실무 노하우를 다룹니다. 발표자가 직접 집필한 문서 AI 장도 포함되어 있습니다.

https://x.com/mervenoyann/status/2028404451476705295

#visionlanguagemodels #documentai #videolanguagemodels #vlm

merve (@mervenoyann) on X

two more chapters on vision language models book is out! > document AI chapter (by yours truly) shows old models, new VLM approaches, retrieval and more! > video language models chapter shows video understanding, know-hows, approaches and more! sneak peek below

X (formerly Twitter)

Aryan Rakib (@tec_aryan)

바이두가 문서 AI 분야의 진전을 알리며 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 9억 파라미터급 모델로 OmniDocBench V1.5에서 전 세계 1위(94.5% 정확도)를 달성, 기존 모델들을 제치며 문서 인식용 멀티모달 OCR의 중요한 개선을 보여줍니다.

https://x.com/tec_aryan/status/2017120751099527268

#paddleocr #ocr #baidu #opensource #documentai

Aryan Rakib (@tec_aryan) on X

@Baidu_Inc open-sourced PaddleOCR-VL-1.5, marking an exciting advancement in document AI. 🚀 This open-source OCR model contains just 0.9 billion parameters and ranks #1 globally on OmniDocBench V1.5 with an impressive 94.5% overall accuracy, surpassing models like

X (formerly Twitter)

Dhaval Makwana (@heyDhavall)

바이두(Baidu)가 멀티모달 OCR 모델 'PaddleOCR-VL-1.5'을 공식 공개하고 오픈소스로 배포했습니다. 0.9B 파라미터의 소형·고속 모델로 OmniDocBench v1.5에서 전 세계 1위(94.5% 정확도)를 기록해 DeepSeek-OCR2를 능가했으며, 생산 환경 적용 가능성을 강조한 릴리스입니다.

https://x.com/heyDhavall/status/2017082722360185297

#baidu #paddleocr #ocr #opensource #documentai

Dhaval Makwana (@heyDhavall) on X

@Baidu_Inc officially released PaddleOCR-VL-1.5, the latest upgrade to its multimodal OCR model. → Small & Fast: Only 0.9B parameters → Top Performance: Ranks #1 globally on OmniDocBench V1.5 (94.5% accuracy), outperforming DeepSeek-OCR2 → Production Ready: Open-source and

X (formerly Twitter)

Github Awesome (@GithubAwesome)

DeepSeek가 OCR-2를 공개했습니다. 기존 이미지 처리 방식 대신 사람의 문서 읽기 방식을 모사하는 'Visual Causal Flow'를 도입했고, 동적 해상도 처리를 통해 PDF를 빠르게 처리하도록 설계되었습니다. 회사는 첫 번째 OCR 모델과 성능 동등(parity)을 주장하며 문서 OCR 처리 속도와 효율을 개선했다고 발표했습니다.

https://x.com/GithubAwesome/status/2016311778872009102

#ocr #computervision #documentai #deepseek

Charly Wargnier (@DataChaz)

DeepSeek가 DeepSeek-OCR 2를 공개했습니다. 3B 파라미터 규모의 모델로 비주얼 + 문서 이해에서 새로운 SOTA를 달성했다고 주장하며, 핵심 구성요소로 DeepEncoder V2를 도입해 기존의 정형화된 래스터 스캔 방식을 대체합니다.

https://x.com/DataChaz/status/2016085127932346581

#deepseek #ocr #sota #documentai

Charly Wargnier (@DataChaz) on X

DeepSeek just dropped an OCR monster… again 🤯 @deepseek_ai just released DeepSeek-OCR 2, a 3B-parameter model that sets a new SOTA for visual + document understanding. At the core: DeepEncoder V2. Instead of scanning images in a rigid grid (top-left → bottom-right), it reads

X (formerly Twitter)

Adobe just changed the PDF game. Acrobat AI now converts documents into podcasts & presentations via chat. $24.99/mo. Forrester study shows 45% efficiency boost. 400% AI adoption surge in 12 months. Enterprise productivity redefined.

#AdwaitX #AdobeAcrobat #AIProductivity #DocumentAI
https://www.adwaitx.com/adobe-acrobat-ai-pdf-podcast-presentation/

Adobe Deploys AI to Turn PDFs Into Podcasts & Presentations

Adobe Acrobat now converts PDFs to podcasts, presentations using AI chat. Studio pricing $24.99/mo. 4X AI adoption surge revealed. AdwaitX

AdwaitX News

Adobe Acrobat now lets you turn any PDF into an AI‑generated podcast. Using Microsoft GPT and Google’s voice model, the new ‘Generate Podcast’ feature reads, summarizes and narrates documents—making Document AI feel like a personal assistant. Curious how PDF AI is evolving? Read the full story. #AdobeAcrobat #GeneratePodcast #GenerativeAI #DocumentAI

🔗 https://aidailypost.com/news/adobe-acrobat-adds-aidriven-generate-podcast-summarise-pdfs

Problem: we keep using frontier LLMs as glue for jobs that are already solved.

Solution: run OCR + NER locally in C# with ONNX Runtime. Deterministic extraction on ingest. Store the entities. Use an LLM later only if you actually need synthesis.

OCR with Tesseract, then BERT NER via ONNX in .NET. No Python, no cloud, no tokens.

This is my 'for beginners' article. I'm DEEP in OCR but realised I never explained the quickest way to do this *locally*.

https://www.mostlylucid.net/blog/simple-ocr-ner-extraction

#CSharp #DotNet #ONNX #OnnxRuntime #OCR #NER #LocalAI #RAG #DocumentAI

Simple OCR and NER Feature Extraction in C# with ONNX (English)

NuGet NuGet Downloads GitHub Release (CLI) As I've been building lucidRAG I'm reading social media where people keep asking the same thing. 'How do you get...

mostlylucid

ExtractPDF4J 2.0 ra mắt với khả năng trích xuất bảng từ PDF văn bản và PDF quét (có OCR), hỗ trợ đa chiến lược xử lý: Stream, Lattice, OCR Stream và HybridParser thông minh. Tích hợp CLI cho CI/CD, cấu hình annotation, Spring Boot & Docker. Công cụ mạnh cho tự động hóa trong ngân hàng, tài chính. #Java #OpenSource #PDF #OCR #DocumentAI #Automation #FinTech #BackendEngineering

https://www.reddit.com/r/programming/comments/1q5789i/released_extractpdf4j_20/

ExtractPDF4J 2.0 ra mắt với khả năng trích xuất bảng từ PDF dạng văn bản và quét (có OCR). Hỗ trợ đa chiến lược: Stream, Lattice, OCR, HybridParser tự động chọn phương pháp tối ưu. Tích hợp CLI cho CI/CD, cấu hình annotation, Spring Boot & Docker. Tài liệu Javadoc đầy đủ, dễ tích hợp vào dự án Java. Phù hợp cho FinTech, tự động hóa xử lý tài liệu. #Java #OpenSource #PDF #OCR #DocumentAI #Automation #FinTech #BackendEngineering #PDFBox #Tesseract

https://www.reddit.com/r/programming/comments/1q5