Die Tool-Chain hat nun Zuwachs bekommen:

#Recoll mit den Paketen #untex und #pdftotext sorgt nun dafür, dass in allen Dokumenten effizient gesucht werden kann.

🐪🤖 Oh joy, another groundbreaking tool to turn PDFs into text, because who needs existing #OCR tech when you can reinvent the wheel with local LLMs? 🔄 Just a few extra hundred steps and voilà! Your PDF is now... text. But hey, at least it’s on #GitHub, so you can wrestle with the layout while pretending you’re coding! 😂
https://github.com/ngafar/llama-scan #PDFtoText #LLMs #TechHumor #Innovation #HackerNews #ngated
GitHub - ngafar/llama-scan: Transcribe PDFs with local LLMs

Transcribe PDFs with local LLMs. Contribute to ngafar/llama-scan development by creating an account on GitHub.

GitHub

ТОП-5 сервисов и программ для бесплатного редактирования PDF-файлов

Когда-нибудь учёные признают PDF одним из самых коварных форматов в истории документов. Особенно если перед вами 120 страниц с таблицами, скриншотами и… одной крошечной ошибкой. И всё бы ничего, но вам нужно просто заменить одну цифру. Одну! И тут начинается: скачивание шести разных программ, поиск очередного «лучшего PDF-редактора» — и где-то на десятой попытке рождается мысль: может, ну его? Распечатать, исправить ручкой и отсканировать обратно? Но, к счастью, времена меняются! В этом обзоре мы собрали пять сервисов для различной работы с PDF-документами. Более того, чтобы внести каплю приключений, мы вновь достаём старый тестовый файл — «Дорога к Эльдорадо», оставшийся с предыдущего обзора. Посмотрим, какой сервис сможет изменить его содержимое лучше. Приятного чтения!

https://habr.com/ru/companies/bothub/articles/921760/

#работа_с_pdf #pdf #редактирование_pdf #редактирование #pdftotext #работа_с_файлами #бесплатные_сервисы

ТОП-5 сервисов и программ для бесплатного редактирования PDF-файлов

Ранее мы уже писали о нейросетях для бесплатного анализа PDF-документов. Рекомендуем ознакомиться — ссылка ниже! Перейти к статье! Когда-нибудь учёные признают PDF одним из самых коварных форматов в...

Хабр

As others have pointed out: running #pdftotext before calling chatgpt does not a startup make.

https://futurism.com/the-byte/openai-signals-destroy-startups-using-its-tech

OpenAI Signals That It'll Destroy Startups Using Its Tech to Build Products

OpenAI's released a new update to ChatGPT, which allows users to upload PDFs. The update effectively killed dozens of startups.

Futurism

For added joy: records (classification entries) and components (descriptions, cross-references, filing/usage notes) can span lines, columns, and pages. So getting something usable takes work.

#textProcessing #pdfConversion #pdftotext #sed #awk #perl #python

(See thread.)

Linux / BSD / 'Nix types: a console PDF viewer using pdftotext which _often_ works, as a bash function:

pdfless ()
{
pdftotext -layout "$1" - | sed 's/\f/\n\n ----------------- ----------------- <page> ----------------- ----------------- \n\n\n/' | ${PAGER:-less} -S
}

#pdf #linux #bsd #pdftotext #poppler