Nathan (@nathanhabib1011)

@VikParuchuri 팀이 신규 OCR 모델 Chandra OCR 2를 공개했다. olmocr 벤치마크 1위(85.9%)를 기록했고, 90개 이상 언어 지원, 40억 파라미터 규모, 레이아웃 정보 추출, 이미지·도표 캡션 생성, 필기·수식·양식 인식 강화 등 문서 이해 기능이 크게 향상됐다.

https://x.com/nathanhabib1011/status/2034565076963991910

#ocr #chandra #opensource #documentai #multilingual

Nathan (@nathanhabib1011) on X

NEW SOTA OCR MODEL DROPPED Congrats to @VikParuchuri and team for releasing Chandra OCR 2! - 85.9% on olmocr bench, making it first place 🏆 - 90+ language support - 4B model - Full layout information - Extracts + captions images and diagrams - Strong handwriting, math, form,

X (formerly Twitter)

Baidu Inc. (@Baidu_Inc)

Qianfan-OCR가 공개되었습니다. 문서 지능을 위한 4B 파라미터 엔드투엔드 모델로, 단일 패스로 표 추출, 수식 인식, 차트 이해, 핵심 정보 추출을 모두 수행합니다. 파이프라인 없이 문서 처리 작업을 통합한 점이 핵심입니다.

https://x.com/Baidu_Inc/status/2034265136182202765

#ocr #documentai #multimodal #ai #opensource

Baidu Inc. (@Baidu_Inc) on X

🚀 Introducing Qianfan-OCR: a 4B-parameter end-to-end model for document intelligence. One model. No pipeline. Table extraction, formula recognition, chart understanding, and key information extraction, all in a single pass. Paper: https://t.co/cmNhv5SLgV Models:

X (formerly Twitter)

merve (@mervenoyann)

비전-언어 모델(VLM) 관련 서적에 새로 두 장이 추가되었다는 공지입니다. 문서 AI 장은 기존 모델부터 최신 VLM 접근법, 검색(retrieval) 등을 정리하고, 비디오 언어 모델 장은 비디오 이해와 관련 기법 및 실무 노하우를 다룹니다. 발표자가 직접 집필한 문서 AI 장도 포함되어 있습니다.

https://x.com/mervenoyann/status/2028404451476705295

#visionlanguagemodels #documentai #videolanguagemodels #vlm

merve (@mervenoyann) on X

two more chapters on vision language models book is out! > document AI chapter (by yours truly) shows old models, new VLM approaches, retrieval and more! > video language models chapter shows video understanding, know-hows, approaches and more! sneak peek below

X (formerly Twitter)

Aryan Rakib (@tec_aryan)

바이두가 문서 AI 분야의 진전을 알리며 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 9억 파라미터급 모델로 OmniDocBench V1.5에서 전 세계 1위(94.5% 정확도)를 달성, 기존 모델들을 제치며 문서 인식용 멀티모달 OCR의 중요한 개선을 보여줍니다.

https://x.com/tec_aryan/status/2017120751099527268

#paddleocr #ocr #baidu #opensource #documentai

Aryan Rakib (@tec_aryan) on X

@Baidu_Inc open-sourced PaddleOCR-VL-1.5, marking an exciting advancement in document AI. 🚀 This open-source OCR model contains just 0.9 billion parameters and ranks #1 globally on OmniDocBench V1.5 with an impressive 94.5% overall accuracy, surpassing models like

X (formerly Twitter)

Dhaval Makwana (@heyDhavall)

바이두(Baidu)가 멀티모달 OCR 모델 'PaddleOCR-VL-1.5'을 공식 공개하고 오픈소스로 배포했습니다. 0.9B 파라미터의 소형·고속 모델로 OmniDocBench v1.5에서 전 세계 1위(94.5% 정확도)를 기록해 DeepSeek-OCR2를 능가했으며, 생산 환경 적용 가능성을 강조한 릴리스입니다.

https://x.com/heyDhavall/status/2017082722360185297

#baidu #paddleocr #ocr #opensource #documentai

Dhaval Makwana (@heyDhavall) on X

@Baidu_Inc officially released PaddleOCR-VL-1.5, the latest upgrade to its multimodal OCR model. → Small & Fast: Only 0.9B parameters → Top Performance: Ranks #1 globally on OmniDocBench V1.5 (94.5% accuracy), outperforming DeepSeek-OCR2 → Production Ready: Open-source and

X (formerly Twitter)

Github Awesome (@GithubAwesome)

DeepSeek가 OCR-2를 공개했습니다. 기존 이미지 처리 방식 대신 사람의 문서 읽기 방식을 모사하는 'Visual Causal Flow'를 도입했고, 동적 해상도 처리를 통해 PDF를 빠르게 처리하도록 설계되었습니다. 회사는 첫 번째 OCR 모델과 성능 동등(parity)을 주장하며 문서 OCR 처리 속도와 효율을 개선했다고 발표했습니다.

https://x.com/GithubAwesome/status/2016311778872009102

#ocr #computervision #documentai #deepseek

Charly Wargnier (@DataChaz)

DeepSeek가 DeepSeek-OCR 2를 공개했습니다. 3B 파라미터 규모의 모델로 비주얼 + 문서 이해에서 새로운 SOTA를 달성했다고 주장하며, 핵심 구성요소로 DeepEncoder V2를 도입해 기존의 정형화된 래스터 스캔 방식을 대체합니다.

https://x.com/DataChaz/status/2016085127932346581

#deepseek #ocr #sota #documentai

Charly Wargnier (@DataChaz) on X

DeepSeek just dropped an OCR monster… again 🤯 @deepseek_ai just released DeepSeek-OCR 2, a 3B-parameter model that sets a new SOTA for visual + document understanding. At the core: DeepEncoder V2. Instead of scanning images in a rigid grid (top-left → bottom-right), it reads

X (formerly Twitter)

Adobe just changed the PDF game. Acrobat AI now converts documents into podcasts & presentations via chat. $24.99/mo. Forrester study shows 45% efficiency boost. 400% AI adoption surge in 12 months. Enterprise productivity redefined.

#AdwaitX #AdobeAcrobat #AIProductivity #DocumentAI
https://www.adwaitx.com/adobe-acrobat-ai-pdf-podcast-presentation/

Adobe Deploys AI to Turn PDFs Into Podcasts & Presentations

Adobe Acrobat now converts PDFs to podcasts, presentations using AI chat. Studio pricing $24.99/mo. 4X AI adoption surge revealed. AdwaitX

AdwaitX News

Adobe Acrobat now lets you turn any PDF into an AI‑generated podcast. Using Microsoft GPT and Google’s voice model, the new ‘Generate Podcast’ feature reads, summarizes and narrates documents—making Document AI feel like a personal assistant. Curious how PDF AI is evolving? Read the full story. #AdobeAcrobat #GeneratePodcast #GenerativeAI #DocumentAI

🔗 https://aidailypost.com/news/adobe-acrobat-adds-aidriven-generate-podcast-summarise-pdfs

Problem: we keep using frontier LLMs as glue for jobs that are already solved.

Solution: run OCR + NER locally in C# with ONNX Runtime. Deterministic extraction on ingest. Store the entities. Use an LLM later only if you actually need synthesis.

OCR with Tesseract, then BERT NER via ONNX in .NET. No Python, no cloud, no tokens.

This is my 'for beginners' article. I'm DEEP in OCR but realised I never explained the quickest way to do this *locally*.

https://www.mostlylucid.net/blog/simple-ocr-ner-extraction

#CSharp #DotNet #ONNX #OnnxRuntime #OCR #NER #LocalAI #RAG #DocumentAI

Simple OCR and NER Feature Extraction in C# with ONNX (English)

NuGet NuGet Downloads GitHub Release (CLI) As I've been building lucidRAG I'm reading social media where people keep asking the same thing. 'How do you get...

mostlylucid