Abhishek Yadav (@abhishek__AI)
LiteParse라는 오픈소스 PDF 파서가 소개되었습니다. 클라우드 의존성 없이 동작하며, 내장 OCR, JSON/Text 출력, 스크린샷 생성, 문서·이미지 처리, 바운딩 박스 기반 공간 텍스트 지원 등 LLM용 문서 파싱 기능을 제공합니다.
Abhishek Yadav (@abhishek__AI)
LiteParse라는 오픈소스 PDF 파서가 소개되었습니다. 클라우드 의존성 없이 동작하며, 내장 OCR, JSON/Text 출력, 스크린샷 생성, 문서·이미지 처리, 바운딩 박스 기반 공간 텍스트 지원 등 LLM용 문서 파싱 기능을 제공합니다.
Мотивация, оптимизация, коробочка, жабочка и «налог на усталость»
Я не программист. Я архитектор, проектирую дома, а полгода назад не знала, где живут скрипты и питоны. Но когда важный для меня чат в Telegram собрались удалять, я попросила нейросеть написать парсер – и пропала. С тех пор прошло полгода. Я всё ещё доделываю приложение. У него есть имя – Розитта, розовая робожаба на иконке. И оно пожирает мои ночи, деньги на такси и остатки семейного спокойствия. Это не история успеха за 4 дня. Это история о том, как взрослый человек с семьёй, работой и падающим забором ушёл в вайбкодинговый запой – и что из этого вышло. Все совпадения с реальными нейросетями не случайны, а промпты – настоящие. Заглянуть в цифровое болото
https://habr.com/ru/articles/1022674/
#telethon #parser #deepseek #околоайтишник #telegram #вайбкодинг
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65
_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend
This week on the blog: the latest release of my Ophis assembler hit an ugly corner of 6502 assembly language syntax (Z80 has it too, x86 and m68k don't), and that turns out to be a good excuse to drop a couple of thousand words on parsing theory.
Also, the Bison parser generator is cooler than it was the last time I looked at it.
chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.
This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.
Min Choi (@minchoi)
이 트윗은 'AI 파서'가 GPU 없이 CPU에서 초당 100페이지 이상 속도로 PDF를 Markdown으로 변환하며 상업적 사용이 무료라고 알립니다. 높은 처리 속도와 GPU 불필요성, 무료 상업적 이용 가능성이 핵심 포인트로, 대용량 문서 처리가 필요한 개발자·기업에 유용할 가능성이 큽니다.
[defuddle - 어떤 웹페이지든 Markdown으로 추출합니다
Defuddle은 웹페이지의 불필요한 요소(댓글, 사이드바 등)를 제거하고 핵심 본문만 HTML 또는 Markdown으로 추출하는 도구입니다. 유튜브 영상의 대화도 화자별로 분리해 추출할 수 있으며, Obsidian Web Clipper용으로 개발되었지만 다양한 환경에서 사용 가능합니다. Mozilla Readability의 대체재로 설계되어 더 유연한 처리와 일관된 출력을 제공하며, 각주, 수식, 코드 블록 등 표준화된 출력을 지원합니다. 모바일 스타일 분석을 통해 불필요한 요소를 감지하고, schema.org 메타데이터를 포함해 더 많은 메타데이터를 자동 추출합니다. CLI 인터페이스를 지원해 터미널에서 HTML·URL 파싱이 가능하며, MIT 라이선스로 제공됩니다.
BuxarParser — простой парсер поисковиков Google, Яндекса и DuckDuckGo на Python
Здравствуйте, товарищи! Сразу скажу: скрипт, которым делюсь, рассчитан в первую очередь на новичков (которых тут тьма). Старожилы, прошу не пинать сильно.
An update to my html-parse library - a new handler to the existing #Unisonlang ability to parses Html text into Markdown. Check the blog post for details. #parser #markdown