Show HN: PDF 2 Context – Convert PDF text to JSONL files

pdf2context는 PDF 파일을 LLM과 RAG 파이프라인에 적합한 JSONL 형식의 텍스트 청크로 변환하는 Golang 기반 CLI 도구입니다. pdftotext를 이용한 텍스트 추출과 OCR 자동 대체 기능을 제공하며, 헤더/푸터 제거, 유니코드 정규화 등 텍스트 전처리도 지원합니다. 병렬 처리, 청크 크기 및 중첩 설정이 가능하고, 처리 현황을 실시간으로 보여주는 TUI를 포함해 대규모 PDF 데이터셋을 효율적으로 준비할 수 있습니다. AI 개발자가 LLM 학습 및 검색 증강 생성에 활용할 수 있는 실용적인 도구입니다.

https://github.com/EwanValentine/pdf2context

#pdf #jsonl #llm #rag #golang

GitHub - EwanValentine/pdf2context: A Golang CLI for converting PDF files to JSONL for efficient use with LLMs

A Golang CLI for converting PDF files to JSONL for efficient use with LLMs - EwanValentine/pdf2context

GitHub

Как я перестал бояться и полюбил MCP или Зачем я написал 4 MCP‑сервера и протокол для их связи

Привет! Вы знаете как это бывает — начинаешь делать одну штуку, а потом просыпаешься через неделю и понимаешь, что написал четыре MCP‑сервера, подключил к ним шедулер, собрал автоматический конвеер для трёх Telegram‑каналов и изобрёл собственную спецификацию для связывания всего этого добра. Классика. Для тех кто не в теме: MCP (Model Context Protocol) — это протокол, через который AI‑ассистенты типа Claude подключаются к внешним сервисам и работают с ними напрямую. По сути это «руки» для нейросетей. Подключил MCP — и ИИ сам ходит в Telegram, ищет лучшие картинки с промптами на Civitai, управляет рекламой в Яндекс.Директе и делает кучу всего полезного. Без костылей, без скриптов‑прослоек, напрямую. В этой статье расскажу почему готовые MCP‑серверы меня не устроили, какие задачи я сейчас решаю с помощью своих, и зачем мне пришлось изобрести целый протокол чтобы эти серверы начали видеть друг друга.

https://habr.com/ru/articles/1019652/

#MCP #Model_Context_Protocol #TRAIL #Claude #AIагенты #автоматизация #оркестрация #нейросети #playwright #JSONL

Как я перестал бояться и полюбил MCP или Зачем я написал 4 MCP‑сервера и протокол для их связи

Привет! Вы знаете как это бывает — начинаешь делать одну штуку, а потом просыпаешься через неделю и понимаешь, что написал четыре MCP‑сервера, подключил к ним шедулер,...

Хабр

Github Awesome (@GithubAwesome)

Claude Code가 세션 대화 내용을 로컬에 JSONL 형식으로 조용히 저장한다는 내용입니다. 새 도구 'claude-replay'는 그 원시 로그를 단일 독립형(interactive) HTML 재생 파일로 변환해 외부 종속성 없이 AI의 실행을 단계별로 확인하고 재생할 수 있게 해줍니다. 로그 시각화 및 디버깅, 회고용으로 유용한 도구입니다.

https://x.com/GithubAwesome/status/2030451338388054488

#claude #claudecode #claudereplay #jsonl

Github Awesome (@GithubAwesome) on X

Did you know Claude Code silently stores all your session transcripts locally as JSONL files? claude-replay turns those raw logs into a beautiful, interactive HTML replay — instantly. Single self-contained file, zero external dependencies. Step through the AI's execution, jump

X (formerly Twitter)
✨Oh, great! Another revolutionary tool to dig through your digital trash can, aka ~/.claude sessions, to unearth files you probably didn't even want to keep. 🚀 Because nothing says "efficient" like #JSONL transcripts and a #GitHub repo that's as useful as a screen door on a submarine. 🐙🔍
https://github.com/hjtenklooster/claude-file-recovery #digitaltools #innovation #techhumor #dataorganization #HackerNews #ngated
GitHub - hjtenklooster/claude-file-recovery: Recover files created and modified by Claude Code from JSONL session transcripts

Recover files created and modified by Claude Code from JSONL session transcripts - hjtenklooster/claude-file-recovery

GitHub

Simple as it is, provided you give it some sensible semantics, #JSONL is one of the most flexible structured formats I have come across in the last 18 months. Extremely flexible for a range of dev needs.

https://jsonlines.org/

#JSONLines #SoftwareDevelopment

JSON Lines

Considering using duckdb to do log queries, it seems happy to injest jsonl files, and the few queries I did today worked out.

#DuckDb #JsonL #NdJson

Don't let Claude Code delete your session logs

"Unfortunately Claude Code has a nasty default behavior of deleting these after 30 days! You can't disable this entirely, but you can at least delay it for 274 years by adding this to your ~/.claude/settings.json file:"

https://simonwillison.net/2025/Oct/22/claude-code-logs/#atom-everything

#ai #claude #codegen #dev #jsonl #llms
Don't let Claude Code delete your session logs

Claude Code stores full logs of your sessions as newline-delimited JSON in ~/.claude/projects/encoded-directory/*.jsonl on your machine. I currently have 379MB of these! Here's an example jsonl file which I extracted …

Simon Willison’s Weblog

#成年後見制度 の闇をGPTデータに加えるため、#OpenAi にフォードバックを送った。#jsonl #ChatGPT

https://chatgpt.com/share/68c87bef-9528-800b-ae36-b8c1a1ee9671

ChatGPT - 後見制度の闇をGPTデータに加える

A conversational AI system that listens, learns, and challenges

ChatGPT

JSONL now supported by JSONID and the first two JSONL rulesets making 80 strong in the registry. JSON, YAML, TOML, fully enabled. Check it out here:

https://github.com/ffdev-info/jsonid

https://ffdev-info.github.io/jsonid/registry/

#JSONID #FileFormatIdentification #FileFormats #JSONL #digipres

GitHub - ffdev-info/jsonid: Identification of JSON (JSONL, YAML, and TOML) objects: JSONID

Identification of JSON (JSONL, YAML, and TOML) objects: JSONID - ffdev-info/jsonid

GitHub
🔍 So, you've built a tool to analyze your own coding insecurities, but disguised it as a #JSONL file inspector? 😂 Bravo! 🚀 Meanwhile, #GitHub is still trying to convince you that #AI will fix your spaghetti code. 🍝🤖
https://github.com/ryoppippi/ccusage #codinginsecurities #spaghettiCode #developerhumor #HackerNews #ngated
GitHub - ryoppippi/ccusage: A CLI tool for analyzing Claude Code usage from local JSONL files.

A CLI tool for analyzing Claude Code usage from local JSONL files. - ryoppippi/ccusage

GitHub