@alerque

In the first stage, I'm using #PaddleOCR

https://github.com/PaddlePaddle/PaddleOCR

Their doc says they support Windows, macOS and Linux. For simplicity, I wrapped the python dependency into podman/docker, so it's Linux-only for now. If there are potential users other than me, I guess it won't be too hard to make it cross platform.

https://github.com/Endle/beanbeaver-ocr

Before PaddleOCR, I first tried #docTR

https://github.com/mindee/doctr

Some Reddit posts claimed that docTR was the best. It was pretty well for English (Latin characters), but it doesn't support Chinese. It would try to recognize a Chinese character as a combination of Latin characters with a relatively high confidence.

PaddleOCR supports Chinese recognize, but I turned it to English-only mode. For the T&T receipt I showed, PaddleOCR provides a very low confidence to Chinese words (https://github.com/Endle/beanbeaver/blob/master/demo/receipt_groups/tnt_20251202/receipt_20260217_200222_debug.png), so beanbeaver can parse this bilingual receipt by the English parts

PaddleOCR‑VL 1.5 vừa được phát hành, cập nhật mạnh mẽ với cải tiến hiệu năng nhận dạng văn bản & hình ảnh. Đây là tin tốt cho cộng đồng AI và Computer Vision! #PaddleOCR #OCR #ComputerVision #AI #NhậnDạngVănBản #CôngNghệ #AIcôngNghệ #VisionAI

https://www.reddit.com/r/LocalLLaMA/comments/1qr5hij/paddleocrvl_15/

RAVI KUMAR SAHU (@RAVIKUMARSAHU78)

바이두(Baidu)가 1월 29일에 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 0.9B 파라미터의 멀티모달 OCR로 OmniDocBench v1.5에서 전 세계 1위를 기록(94.5% 정확도)해 DeepSeek-OCR2를 능가했으며, 오픈소스·생산환경 적용 가능성 등이 주목되는 발표입니다.

https://x.com/RAVIKUMARSAHU78/status/2017089520290975953

#baidu #paddleocr #ocr #opensource #benchmark

RAVI KUMAR SAHU (@RAVIKUMARSAHU78) on X

🚨 @Baidu_Inc just dropped a bomb in document AI. On Jan 29, they open-sourced PaddleOCR-VL-1.5, a 0.9B-parameter multimodal OCR model that just ranked #1 worldwide on OmniDocBench v1.5. 📊 94.5% overall accuracy, beating DeepSeek-OCR2. What makes this spicy: → Open-source +

X (formerly Twitter)

Aryan Rakib (@tec_aryan)

바이두가 문서 AI 분야의 진전을 알리며 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 9억 파라미터급 모델로 OmniDocBench V1.5에서 전 세계 1위(94.5% 정확도)를 달성, 기존 모델들을 제치며 문서 인식용 멀티모달 OCR의 중요한 개선을 보여줍니다.

https://x.com/tec_aryan/status/2017120751099527268

#paddleocr #ocr #baidu #opensource #documentai

Aryan Rakib (@tec_aryan) on X

@Baidu_Inc open-sourced PaddleOCR-VL-1.5, marking an exciting advancement in document AI. 🚀 This open-source OCR model contains just 0.9 billion parameters and ranks #1 globally on OmniDocBench V1.5 with an impressive 94.5% overall accuracy, surpassing models like

X (formerly Twitter)

Parul Gautam (@Parul_Gautam7)

바이두(Baidu)의 PaddleOCR-VL-1.5가 공식 릴리스되어 오픈소스로 공개되었습니다. 0.9B 파라미터로 경량화된 모델임에도 OmniDocBench v1.5에서 94.5%의 전체 정확도로 1위를 차지하며 성능과 효율성을 모두 입증한 업데이트 소식입니다.

https://x.com/Parul_Gautam7/status/2017119585120772548

#baidu #paddleocr #ocr #opensource #multimodal

Parul Gautam (@Parul_Gautam7) on X

Exciting update from @Baidu_Inc! PaddleOCR-VL-1.5 is officially released and open-source. At just 0.9B parameters, it’s already making waves by topping the OmniDocBench v1.5 benchmark with 94.5% overall accuracy. Efficiency doesn’t mean compromising on accuracy.

X (formerly Twitter)

Dhaval Makwana (@heyDhavall)

바이두(Baidu)가 멀티모달 OCR 모델 'PaddleOCR-VL-1.5'을 공식 공개하고 오픈소스로 배포했습니다. 0.9B 파라미터의 소형·고속 모델로 OmniDocBench v1.5에서 전 세계 1위(94.5% 정확도)를 기록해 DeepSeek-OCR2를 능가했으며, 생산 환경 적용 가능성을 강조한 릴리스입니다.

https://x.com/heyDhavall/status/2017082722360185297

#baidu #paddleocr #ocr #opensource #documentai

Dhaval Makwana (@heyDhavall) on X

@Baidu_Inc officially released PaddleOCR-VL-1.5, the latest upgrade to its multimodal OCR model. → Small & Fast: Only 0.9B parameters → Top Performance: Ranks #1 globally on OmniDocBench V1.5 (94.5% accuracy), outperforming DeepSeek-OCR2 → Production Ready: Open-source and

X (formerly Twitter)

Md Riyazuddin (@riyazmd774)

Baidu가 문서 OCR 중요성을 강조하며 PaddleOCR-VL-1.5를 완전 오픈소스로 공개했습니다. 약 0.9B 파라미터의 비교적 경량 모델로 실무용 문서 입력(노이즈/비정형 문서)에서 신뢰 가능한 AI 출력 확보를 목표로 설계되었음을 알리는 발표입니다.

https://x.com/riyazmd774/status/2016890509562958243

#baidu #paddleocr #ocr #opensource

Md Riyazuddin (@riyazmd774) on X

Most people talk about LLMs. But in real business AI, OCR is where everything starts. No clean document input → no reliable AI output. Today @Baidu_Inc open-sourced PaddleOCR-VL-1.5, and it’s impressive: • Fully open-source • Just 0.9B parameters • Built for

X (formerly Twitter)

Cần hỗ trợ tinh chỉnh PaddleOCR VL 0.9 qua PaddleFormers (LoRa pipeline). Xác nhận yêu cầu từ nightwing_2 tại r/LocalLLaMA. #LocalLLaMA #AI #PaddleOCR #CôngNghệ #MachineLearning

https://www.reddit.com/r/LocalLLaMA/comments/1qq6sey/has_anyone_fine_tuned_paddleocr_vl_09_through/

Github Awesome (@GithubAwesome)

Ocrbase는 자기호스팅 엔진으로 복잡한 PDF를 사용 가능한 구조화된 JSON으로 변환합니다. PaddleOCR와 로컬 LLM을 래핑해 API로 제공하며 Docker 컨테이너로 띄워 이미지/문서 대량 처리로 구조화된 데이터를 추출할 수 있어 오프라인·프라이버시 중심 문서 처리 파이프라인이나 자동화 OCR→NLP 워크플로에 유용합니다.

https://x.com/GithubAwesome/status/2013802754385568164

#ocrbase #ocr #paddleocr #llm #docker

Github Awesome (@GithubAwesome) on X

Ocrbase — the self-hosted engine that turns your messy PDFs into usable JSON. It wraps powerful tools like PaddleOCR and local LLMs into a slick API that extracts structured data from documents with accuracy. you just spin up the Docker container and start blasting images at it.

X (formerly Twitter)
🎉 Oh, joy! Another tool promising to revolutionize your life by converting PDFs into a smorgasbord of formats you never knew you needed. 🤖✨ Complete with buzzword bingo: #PaddleOCR, #LLM, TypeScript SDK, and WebSocket updates! Don't forget to remind your grandma to self-host it! 😂🙄
https://github.com/majcheradam/ocrbase #PDFconversion #TypeScriptSDK #selfhosting #HackerNews #ngated