Github Awesome (@GithubAwesome)
Ocrbase는 자기호스팅 엔진으로 복잡한 PDF를 사용 가능한 구조화된 JSON으로 변환합니다. PaddleOCR와 로컬 LLM을 래핑해 API로 제공하며 Docker 컨테이너로 띄워 이미지/문서 대량 처리로 구조화된 데이터를 추출할 수 있어 오프라인·프라이버시 중심 문서 처리 파이프라인이나 자동화 OCR→NLP 워크플로에 유용합니다.

Github Awesome (@GithubAwesome) on X
Ocrbase — the self-hosted engine that turns your messy PDFs into usable JSON. It wraps powerful tools like PaddleOCR and local LLMs into a slick API that extracts structured data from documents with accuracy. you just spin up the Docker container and start blasting images at it.