#開源分享 一款新出的PDF文本提取工具:olmOCR,可以從PDF和文件圖像中提取乾淨且結構化的純文本
可以處理包含複雜布局、表格、方程式以及手寫文件
處理100萬頁PDF的成本約為190美元,相當於GPT-4o 1/32的成本
以Markdown格式輸出文本,可以準確處理方程、表格和手寫內容,能在複雜的多欄文件布局中保持正確的閱讀順序
性能優於Marker、MinerU以及GOT-OCR 2.0等
專案地址: github.com/allenai/olmocr
#文件處理工具 #文件文本提取工具 #olmOCR #OCR