Omar Sanseviero (@osanseviero)

LlamaIndex가 실제 엔터프라이즈 문서 2천 페이지를 검증한 문서 파싱 에이전트 벤치마크 ParseBench를 공개했다. 문서 파싱 성능을 평가하는 새로운 기준을 제시하며, ML 생태계에서 벤치마크의 중요성을 강조하는 오픈한 작업으로 주목된다.

https://x.com/osanseviero/status/2048777802015535189

#llamaindex #benchmark #documentparsing #agents #ml

Omar Sanseviero (@osanseviero) on X

ParseBench: A benchmark for document parsing agents @llama_index just shipped a benchmark with 2k verified pages for real enterprise documents. Benchmarks are the major underrated component in the ML ecosystem, so I'm excited to see more entities doing open work in the space

X (formerly Twitter)

Google for Developers (@googledevs)

금융 PDF와 복잡한 표에서 구조화된 데이터를 더 정확하게 추출하기 위해 LlamaParse와 Gemini 3.1 Pro를 활용하는 문서 파싱 개선 사례를 소개한다. 비정형 브로커리지 명세서 처리와 이벤트 기반 확장 기능을 통해 문서 이해 정확도를 15% 향상시켰다고 강조한다.

https://x.com/googledevs/status/2036101456239939750

#documentparsing #llm #pdf #gemini #llamaparse

Google for Developers (@googledevs) on X

Improve document parsing accuracy by 15% for financial PDFs. Use LlamaParse and Gemini 3.1 Pro to extract high-quality data from unstructured brokerage statements and complex tables. 📈 Precise reasoning 📂 Structured PDF data ⚡️ Event-driven scaling Dive into the code on

X (formerly Twitter)

Đang tìm kiếm kinh nghiệm về pipeline phân tích tài liệu cho hệ thống RAG trong môi trường sản xuất! Người dùng hiện dùng docling & rapidocr nhưng gặp khó khăn với tài liệu scan phức tạp. Bạn đang dùng công cụ gì để xử lý PDF, Word, ảnh, đặc biệt là tài liệu scan? Cần giải pháp đáng tin cậy, ưu tiên tự host. Chia sẻ kinh nghiệm thực tế nhé!
#RAG #DocumentParsing #LLMs #AI #SelfHosted #HệThốngRAG #PhânTíchTàiLiệu #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1q0by8x/those_running_rag_in

🚀 Đang gặp vấn đề mất metadata khi chuyển PDF/Excel sang markdown trong pipeline RAG? Đội Pipeshub đề xuất mô hình “blocks” giữ nguyên vị trí, trang, bảng, dòng… giúp tăng độ chính xác, giảm hallucination và cho phép tùy chỉnh sâu hơn. Họ muốn biến nó thành chuẩn mở và phát triển gói Python. Bạn có quan tâm? #RAG #DocumentParsing #AI #OpenStandard #Metadata #trí_tuệ #xử_lý_tài_liệu

https://www.reddit.com/r/LocalLLaMA/comments/1o26u9e/stop_converting_full_documents_to_markdown/

Taming Unstructured Data: From PDFs to JSON with Quarkus and Docling
Build a fast, scalable converter to turn business documents into structured data
https://myfear.substack.com/p/quarkus-docling-data-preparation-for-ai
#Java #Quarkus #Docling #AIML #PDF #DocumentParsing